python lxml.etree.Element.text_content 中文报错

fysy0000 2011-11-18 02:58:05

<html>
<body>
<table id = "ta_1" border = "2">
<tr align = "center">
<td><img src="zhengchuang">"张三#279"</td>
<td>lisi</td>
</tr>
<tr align = "center">
<td>13:19 2011-11-17#279</td>
<td>baidu</td>
</tr>
</table>
<body>
</html>
我要解析上面HTML table每一行（tr align = "center")的第一列Text节点信息，但是用方法text_content()对于中文的文字节点会报错，英文的支持完好。请问该怎么处理

import lxml
import lxml.html as HTML
from lxml import etree

fd = open("E:\\test.html","r")
dom = HTML.document_fromstring(fd.read())
trNodesList=dom.xpath("//table[@id='ta_1']//tr")
count =0
for item in trNodesList:
if(item.get("align") == "center"):
for it in item.iter():
if(it.tag =="td"):
print it.text_content()#error place
break

...全文

880 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

fysy0000 2011-11-18

打赏
举报

回复

[Quote=引用 3 楼 thundor 的回复:]
用NotePad++将输入文件html改成utf-8编码保存后即可
[/Quote]
这个是我本地测试的，实际是用作网页解析的，你的方法可能行不通

fysy0000 2011-11-18

打赏
举报

回复

[Quote=引用 4 楼 angel_su 的回复:]
idle在报错，你在纯cmd下试试吧。还有你用的lxml是第三方的吧，没特殊原因用内建的xml模块，这样别人好帮你...
[/Quote]
内建的xml.dom.mindom的解析XML或者HTML要求，规范的XML或者HTML，这样解析网页就显得弱了点

angel_su 2011-11-18

打赏
举报

回复

idle在报错，你在纯cmd下试试吧。还有你用的lxml是第三方的吧，没特殊原因用内建的xml模块，这样别人好帮你...

zengna_com 2011-11-18

打赏
举报

回复

用NotePad++将输入文件html改成utf-8编码保存后即可

fysy0000 2011-11-18

打赏
举报

回复

[Quote=引用 1 楼 thundor 的回复:]
Python code
#coding:gbk
[/Quote]
还是错误
Traceback (most recent call last):
File "D:/Python27/changest.pyw", line 17, in <module>
print item.text_content()
File "D:\Python27\lib\idlelib\rpc.py", line 595, in __call__
value = self.sockio.remotecall(self.oid, self.name, args, kwargs)
File "D:\Python27\lib\idlelib\rpc.py", line 210, in remotecall
seq = self.asynccall(oid, methodname, args, kwargs)
File "D:\Python27\lib\idlelib\rpc.py", line 225, in asynccall
self.putmessage((seq, request))
File "D:\Python27\lib\idlelib\rpc.py", line 324, in putmessage
s = pickle.dumps(message)
File "D:\Python27\lib\copy_reg.py", line 70, in _reduce_ex
raise TypeError, "can't pickle %s objects" % base.__name__
TypeError: can't pickle _ElementUnicodeResult objects

zengna_com 2011-11-18

打赏
举报

回复

#coding:gbk

本文深入对比Requests+BeautifulSoup/lxml、Selenium、Playwright和Scrapy四大Python网络爬虫技术栈，聚焦静态与动态页面场景下的真实能力边界、资源开销与反爬适配性。结合生产环境踩坑经验，提供按任务类型（纯静态、动态高频、强反爬）匹配的技术决策树，并解析ConnectionResetError、StaleElementReferenceException等典型异常的根本原因与实操解法，强调选型本质是目标网站特征、硬件资源、交付周期与维护成本的综合权衡。

实用代码脚本易语言源码识字连连看

【注：该页面底部资源详情处，可查看数据集可视化效果】 1. YOLO目标检测数据集，适用于YOLOV5、yolov7,yolov8, yolov11, yolov13, yolo26等系列算法，含标签，已标注好，可以直接用来训练； 2. 内置data.yaml数据集配置文件，已经划分好了训练集、验证集等； 3. 数据集和模型具体情况可参考 https://blog.csdn.net/zhiqingAI/article/details/124230743?spm=1001.2014.3001.5502

内容概要：本文档系统性地涵盖了电力电子与能源系统领域的核心技术，重点聚焦直流-直流和交流-直流转换器的并网技术，深入探讨并网逆变器、双向电池充电器及LCL滤波器的设计原理与仿真方法，并基于Simulink平台实现并网电池系统的建模与动态分析。内容延伸至三相逆变器、软开关技术、微电网控制策略、储能系统集成以及多种电力变换拓扑结构的仿真研究，突出其在新能源并网、电能质量提升和系统稳定性保障中的工程应用价值。文档还整合了永磁同步电机控制、风光储协同优化调度、需求响应机制、碳交易背景下的低碳经济运行等前沿课题，并提供了大量Matlab/Simulink仿真模型与Python实现代码，涵盖顶刊复现、硕士论文复现及创新未发表研究成果，具有较强的综合性、实践性与科研指导意义。; 适合人群：电气工程、自动化、能源系统及相关专业的高年级本科生、研究生、科研人员，以及从事电力电子变换、新能源并网、微电网控制与储能系统开发的工程技术人员。; 使用场景及目标：①支撑高校科研项目中关于新能源并网、储能系统控制、电能质量管理等方向的技术研究与仿真验证；②辅助完成电力电子课程设计、毕业设计或实际工程项目中的系统建模、控制器设计与稳定性分析；③为撰写高水平学术论文、复现国际顶刊成果提供可运行的模型参考与算法实现支持；④助力研究人员掌握从理论建模到仿真实践的全流程科研能力。; 阅读建议：建议读者结合Matlab/Simulink与Python环境动手实践，优先学习并网逆变器控制、LCL滤波器设计、软开关技术与微电网能量管理等核心模块，重点关注系统稳定性分析与控制策略优化部分；同时可访问文中提供的百度网盘链接获取完整仿真模型与代码资源，结合“荔枝科研社”公众号资料体系进行系统性学习，以提升科研效率与技术创新能力。

内容概要：本文详细介绍了基于ROS2的机器人三大核心功能——SLAM建图、Navigation2自主导航与MoveIt2机械臂控制的实战开发流程。通过Ubuntu 22.04与ROS2 Humble环境搭建，结合Gazebo仿真与RViz2可视化工具，系统讲解了Cartographer和SLAM-Toolbox建图、AMCL定位、全局与局部路径规划、机械臂运动规划与避障抓取等关键技术，并实现三者联合运行，构建完整的移动操作一体化机器人系统。项目涵盖从环境配置、模块开发、联合调试到生产优化的全流程，具备高度工程落地价值。; 适合人群：具备ROS基础的机器人相关专业学生、研究人员及从事智能机器人开发的工程师，尤其适合进行毕业设计、课程项目或工业AGV、分拣机器人开发的技术人员。; 使用场景及目标：①掌握SLAM建图原理与高精度地图生成方法；②实现Nav2驱动下的机器人自主导航与动态避障；③利用MoveIt2完成机械臂智能轨迹规划与抓取任务；④整合三大模块构建复合型智能机器人系统；阅读建议：建议在仿真环境中逐步实践各模块功能，结合ros2命令工具进行节点与话题调试，重点关注参数配置与模块间坐标变换（TF）的协调，最终实现从建图到导航再到机械臂控制的端到端自动化作业流程。

37,740

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章