【求助】Python 编码问题

hustu200715998 2013-04-28 05:33:05

写了个py的网页爬虫程序，其他都已经没问题了，就是utf-8的编码问题解决不了。代码如下：

rep=urllib.request.Request(url)

                response=urllib.request.urlopen(rep)

                page=response.read()#获得网页

                way=self.way+str(self.num)+r'.html'

                self.num+=1

                file=open(way,'w')

                m_charset = re.search('<meta\s*http-equiv="?Content-Type"? content="text/html;\s*charset=([\w\d-]+?)"', page.decode("ISO-8859-1"), re.IGNORECASE)

                if m_charset.group(1) :

                    page=page.decode(m_charset.group(1),'ignore')

                file.write(str(page))

                file.close()

对于gbk和gb2312的网页都能没问题，就是utf-8不行，像上面这样，所有保存下来的utf-8编码的网页大小全部为0kb，如果改成

 if m_charset.group(1) and (m_charset.group(1)!=r'utf-8'):

                    page=page.decode(m_charset.group(1),'ignore')

虽然utf-8网页的大小不为0，但是只能显示utf-8的编码，而不能正常显示，用chrome浏览器打开如下：

弄了一下午，尝试了很多方法，都无法正常显示

...全文

124 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

hustu200715998 2013-04-28

打赏
举报

引用 1 楼 snmr_com 的回复:

file=open(way,'w', encoding='utf-8') 或者不进行decode，直接用二进制写入 file=open(way,'wb')

谢谢解决了，利用你的方法稍微改了下，根据网页的编码方式来

 if m_charset.group(1) :
                    file=open(way,'w', encoding=m_charset.group(1))

ImN1 2013-04-28

打赏
举报

file=open(way,'w', encoding='utf-8') 或者不进行decode，直接用二进制写入 file=open(way,'wb')

用python2的小伙伴肯定会遇到字符编码的问题。下面对编码问题做个简单的总结，希望对各位有些帮助。故事零：编码的定义我们从“SOS“（国际通用求助信号）开始，它的摩斯密码的编码是： “…—…”，想一下为什么选用S、O、S来作为求救信号？因为它简单，容易辨别且不容易发错呀！那么，字符编码就是： ´给定一系列字符，对每个字符赋予一个数值，用数值来代表对应的字符，这一数值就是字符的编码。例如，我们给字符’A’赋予数值0x41，则0x41就是字符’A’的编码。字符编码是字符的表现、储存方式。字符编码需要处理两件事：（1）规定一个字符集中的字符由多少个字节表示；（2

algorithm_py Backjoon / Leetcode /教科书（算法基础）/编码测试 Linux-Ubuntu 18.04 LTS / Pycharm / Python 3.6 / 日本央行-> 求助->

matlab求助代码各种各样的这个存储库包含用我在学习过程中构建的各种语言编写的代码，包括haskell（我最近被它迷住了，所以我会写很多关于它的）、python、matlab、R、c、c++、java . 哈斯克尔这将包含我在阅读大量书籍时会遇到的很多代码黑客问题数学来自美丽的数学真理和思想的有趣项目将被发布。 MATLAB 我学习期间的琐碎代码...... Python 可能包含一些用于个人使用的棘手和有趣的代码。

它能做什么：将 n 维数组转换为表格。第一个维度定义表的行维度，其他维度作为附加行粘贴在下面。为了对维度进行编码，需要为每个维度创建一个附加列。数组中的值存储在“值”列中。动机：科学数据通常以多维数组（nd-array）的形式出现。对于漂亮的绘图，许多人求助于 R（使用 ggplot2）或 Python（使用 Pandas 和 matplotlib/seaborn），但这里的输入应该是数据框形式的表格数据。在 R 或 Python 中将 nd-array 重塑为数据帧可能会很麻烦（曾经存在过）。首先通过将其转换为 Matlab 表格，更容易将其转换为 Matlab 中的正确格式。然后可以使用 writetable() 将该表导出为 CSV 文件。在 R 或 Python 中将 CSV 文件作为数据框导入很容易。输入参数： arr - [s1 x s2 x ...

编码，还是编码！ python2的直钩——编码异常当你用python打开一篇中文文档，准备读取里面的数据开始实验...当你处理好你的数据，打算打印出易于阅读的结果给boss检查...甚至当你刚刚开始编写自己的代码，就写了一句话... text = '什么鬼' 只要你开始运行自己的代码，信心满满期待搞定回寝时 UnicodeDecodeE...

脚本语言

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章