访问百度后乱码怎么办

mwangwang 2014-11-16 05:28:20

teibaUrl = 'http://www.baidu.com/'
content = urllib2.urlopen(teibaUrl).read();
print chardet.detect(content)
print content;

检测是utf8编码，打印到控制台英文正常中文乱码

...全文

219 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

mwangwang 2014-11-19

打赏
举报

回复

百度页面被gzip压缩了解压后还需要解码 mbcs这东西不熟

mwangwang 2014-11-19

打赏
举报

回复

ht=sendPost.read() print sendPost.info() compressedstream = StringIO.StringIO(ht) gzipper = gzip.GzipFile(fileobj=compressedstream) data = gzipper.read() print chardet.detect(data) print data.decode('utf-8','replace').encode(sys.getfilesystemencoding()) 解决了还是有点不大懂

mwangwang 2014-11-19

打赏
举报

回复

引用 3 楼 cdd801 的回复:

在import 之前添加#coding:utf-8，之后设置编码 reload(sys) sys.setdefaultencoding("utf-8")。主要问题出在编码设置上。

还是不行各种解码也试过了

James-CDD 2014-11-18

打赏
举报

回复

在import 之前添加#coding:utf-8，之后设置编码 reload(sys) sys.setdefaultencoding("utf-8")。主要问题出在编码设置上。

mwangwang 2014-11-17

打赏
举报

回复

引用 1 楼 panghuhu250 的回复:

[quote=引用楼主 mwangwang 的回复:] teibaUrl = 'http://www.baidu.com/' content = urllib2.urlopen(teibaUrl).read(); print chardet.detect(content) print content; 检测是utf8编码，打印到控制台英文正常中文乱码

检测出编码后，还要解码。


print content.decode('utf-8')

[/quote]还是不行解码到一半报错

panghuhu250 2014-11-16

打赏
举报

回复

引用楼主 mwangwang 的回复:

teibaUrl = 'http://www.baidu.com/' content = urllib2.urlopen(teibaUrl).read(); print chardet.detect(content) print content; 检测是utf8编码，打印到控制台英文正常中文乱码

检测出编码后，还要解码。


print content.decode('utf-8')

字符集就是一套文字符号及其编码。常用的字符集有：GBK 定长双字节不是国际标准，支持的系统不少UTF-8 非定长 1-4字节广泛支持，MYSQL也使用UTF-8当然了，字符集还有很多，以后再深入学习这部分内容。①linux系统下的字符集由变量LANG控制。[root@gagarin ~]# echo $LANGzh_CN.GB18030②export LANG="ZH_CN.GB18030"(...

开始跟着B站上学习爬虫，使用的工具是PyCharm。视频链接：https://b23.tv/NLp4gz6?share_medium=android&share_source=qq&bbid=XYC5605C8F19F10D959B8A59F386FD514EF41&ts=1640697988835 爬虫代码如下： # -*- coding: utf-8 -*- # 爬虫：本质是通过编写程序来获取到互联网上的资源 # 百度 # 需求：用程序模拟浏览器，输入一个网址，从该网址中

在用Jmeter测试访问百度网站时，响应的内容显示的中文是乱码，原因应该是响应页面没有做编码处理，jmeter默认按照ISO-8859-1编码格式进行解析。方法一：改配置文件进入Jmeter的bin目录下，找到jmeter.properties文件，以文本形式打开，找到sampleresult.default.encoding这个参数，可以看到说明，默认值是ISO-8859-1 将ISO-8859-1修改成utf-8，去掉注释符号，重启Jmeter 再次访问文件，已经不显示乱..

Python scrapy爬取京东百度百科出现乱码解决方案十分想念顺店杂可。。。抓取百度百科，出现乱码把页面源码下载下来之后，发现全是乱码，浏览器打开但是浏览器链接打开就没有乱码以下是浏览器里面的源码到这一步说明我们下载网页...

刚刚通过ftp访问站点，结果发现，文件夹中文名称出现乱码，在google浏览器中访问出现乱码，于是我来到资源管理器直接访问，还是乱码，搜索了百度经验给出的解决办法并不适用。比如， 1.启动 InternetExplorer 8 在菜单栏选择工具—〉Internet 选项 —〉高级 —〉钩选“启用 FTP 文件夹视图（在InternetExplorer之外）”复选框, 然后单击确定。 2.

37,741

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章