python使用xpath抓取中文时出现乱码问题

时光未老丶 2016-02-19 12:45:20

# -*- coding:utf-8 -*-
from lxml import etree
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')//按照网上的方法添加这三行代码不能解决乱码问题

html = '''
<!DOCTYPE html>
<html>
<head></head>
<body>
<div>
<ul id='useful'>
<li>第一条</li>
<li>第二条</li>
<li>第三条</li>
</ul>
<div>
<a href="www.baidu.com">百度</a>
</div>
</div>
</body>
</html>
'''

# print html //在此处输出html中文能够正常显示
selector = etree.HTML(html)

# 提取文本
content = selector.xpath('//ul[@id="useful"]/li/text()') //此处开始出现乱码
for each in content:
print each

输出结果为
ç¬¬ä¸æ¡
ç¬¬äºæ¡
ç¬¬ä¸æ¡

求大侠支招！！

...全文

2228 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

Candy链上笔记 2016-10-24

打赏
举报

回复

引用 2 楼 panghuhu250 的回复:

html = u''' <!DOCTYPE html> <html> ...

谢谢

qq_22035835 2016-03-06

打赏
举报

回复

多谢~！按照你说的做，果然成功了

panghuhu250 2016-02-19

打赏
举报

回复 1

html = u''' <!DOCTYPE html> <html> ...

人傻且呆但不萌 2016-02-19

打赏
举报

回复

统一使用unicode可以省不少的事儿，你先看编码的类型，然后在解码。

本文介绍了使用Python进行网络爬虫时，如何利用Xpath解析网页结构并有效抓取图片资源，同时针对可能出现的中文乱码问题提供了解决方案。

本文介绍了使用Python的requests和lxml库结合XPath语法来抓取网页上的特定数据，包括买家名称和商品价格等信息，并提供了两种不同的实现方法。此外还讨论了处理中文网页时可能出现的乱码问题及其解决方案。

本文介绍使用Python Requests库抓取中文网页时出现乱码的原因及解决方法，包括手动指定编码和利用content属性处理。

本文介绍了解决爬虫在抓取中文网页时遇到的乱码问题的方法，通过设置requests的编码方式为utf-8来正确解析中文字符，并提供了unicode转换为中文的示例。

本文介绍了解决Python爬虫在抓取中文网站时出现乱码的问题。通过调整Python的默认编码方式，确保从网页读取的内容能正确地转换为系统编码格式，从而避免中文乱码现象。

37,741

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章