Beautiful Soup4在处理代码时会改变属性的顺序并且补充缺少的代码,应该如何保持原样?

omg211 2016-11-26 09:41:49

我的系统环境是XP+Python3.4,
现在发现 BS4在处理代码时会改变属性的顺序, 比如:
<td height="250" class="infodetail" valign="top" id="TDContent">
上边这行代码经过 BeautifulSoup(htmlstr,'html.parser')处理后会变成
<td class="infodetail" height="250" id="TDContent" valign="top"></td>
很显然,这是根据标签属性的顺序进行了重新排序,然后我再换lxml试了下,
<html><body><td class="infodetail" height="250" id="TDContent" valign="top"></td></body></html>
不光重新排序,还把头尾缺少的<html><body>给补上了。
请问有什么方法能使代码保持原样吗?我只要提取数据就行了,不希望改原代码的顺序,因为以后还要用到,而且html.parser和lxml在处理代码混乱的页面时会补充缺少的标签代码,有时可能会在代码的中间部位就加上了</html>,这样就没法正常提取了。

...全文
419 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧