python使用xpath抓取中文时出现乱码问题

时光未老丶 2016-02-19 12:45:20
# -*- coding:utf-8 -*-
from lxml import etree
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')//按照网上的方法添加这三行代码不能解决乱码问题

html = '''
<!DOCTYPE html>
<html>
<head></head>
<body>
<div>
<ul id='useful'>
<li>第一条</li>
<li>第二条</li>
<li>第三条</li>
</ul>
<div>
<a href="www.baidu.com">百度</a>
</div>
</div>
</body>
</html>
'''

# print html //在此处输出html中文能够正常显示
selector = etree.HTML(html)

# 提取文本
content = selector.xpath('//ul[@id="useful"]/li/text()') //此处开始出现乱码
for each in content:
print each

输出结果为
第一条
第二条
第三条

求大侠支招!!
...全文
2202 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
Candy链上笔记 2016-10-24
  • 打赏
  • 举报
回复
引用 2 楼 panghuhu250 的回复:
html = u''' <!DOCTYPE html> <html> ...
谢谢
qq_22035835 2016-03-06
  • 打赏
  • 举报
回复
多谢~!按照你说的做,果然成功了
panghuhu250 2016-02-19
  • 打赏
  • 举报
回复 1
html = u''' <!DOCTYPE html> <html> ...
  • 打赏
  • 举报
回复
统一使用unicode可以省不少的事儿,你先看编码的类型,然后在解码 。
内容概要:本文围绕多旋翼无人机姿态控制系统的鲁棒设计展开研究,重点探讨了在复杂动态环境下实现稳定、精确姿态控制的关键技术与方法。通过构建无人机动力学模型,结合现代控制理论,提出并实现了基于鲁棒控制策略的设计方案,有效应对系统不确定性、外部干扰及参数摄动等问题。文中详细介绍了控制器的设计流程,并利用Matlab进行算法仿真验证,展示了所提方法在提升系统稳定性、动态响应性能和抗干扰能力方面的优势。研究涵盖控制算法建模、稳定性分析与仿真结果对比,为无人机控制系统开发提供了理论依据与实践参考。; 适合人群:具备自动控制理论基础和Matlab仿真经验,从事无人机控制、自动化、航空航天等相关领域研究的研发人员及高校研究生。; 使用场景及目标:①应用于多旋翼无人机姿态控制系统的设计与优化;②解决实际飞行中因外界扰动和模型不精确导致的控制不稳定问题;③为鲁棒控制算法在飞行器中的工程实现提供仿真验证平台。; 阅读建议:建议读者结合Matlab代码深入理解控制算法实现细节,重点关注系统建模与鲁棒控制器设计部分,并通过调整参数进行仿真测试,以掌握不同工况下控制性能的变化规律。

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧