python使用xpath抓取中文时出现乱码问题
时光未老丶 2016-02-19 12:45:20 # -*- coding:utf-8 -*-
from lxml import etree
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')//按照网上的方法添加这三行代码不能解决乱码问题
html = '''
<!DOCTYPE html>
<html>
<head></head>
<body>
<div>
<ul id='useful'>
<li>第一条</li>
<li>第二条</li>
<li>第三条</li>
</ul>
<div>
<a href="www.baidu.com">百度</a>
</div>
</div>
</body>
</html>
'''
# print html //在此处输出html中文能够正常显示
selector = etree.HTML(html)
# 提取文本
content = selector.xpath('//ul[@id="useful"]/li/text()') //此处开始出现乱码
for each in content:
print each
输出结果为
第ä¸æ¡
第äºæ¡
第ä¸æ¡
求大侠支招!!