python使用xpath抓取中文时出现乱码问题

时光未老丶 2016-02-19 12:45:20
# -*- coding:utf-8 -*-
from lxml import etree
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')//按照网上的方法添加这三行代码不能解决乱码问题

html = '''
<!DOCTYPE html>
<html>
<head></head>
<body>
<div>
<ul id='useful'>
<li>第一条</li>
<li>第二条</li>
<li>第三条</li>
</ul>
<div>
<a href="www.baidu.com">百度</a>
</div>
</div>
</body>
</html>
'''

# print html //在此处输出html中文能够正常显示
selector = etree.HTML(html)

# 提取文本
content = selector.xpath('//ul[@id="useful"]/li/text()') //此处开始出现乱码
for each in content:
print each

输出结果为
第一条
第二条
第三条

求大侠支招!!
...全文
2041 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
Candy链上笔记 2016-10-24
  • 打赏
  • 举报
回复
引用 2 楼 panghuhu250 的回复:
html = u''' <!DOCTYPE html> <html> ...
谢谢
qq_22035835 2016-03-06
  • 打赏
  • 举报
回复
多谢~!按照你说的做,果然成功了
panghuhu250 2016-02-19
  • 打赏
  • 举报
回复 1
html = u''' <!DOCTYPE html> <html> ...
  • 打赏
  • 举报
回复
统一使用unicode可以省不少的事儿,你先看编码的类型,然后在解码 。

37,718

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧