Beautiful Soup4在处理代码时会改变属性的顺序并且补充缺少的代码，应该如何保持原样？

omg211 2016-11-26 09:41:49

我的系统环境是XP+Python3.4，
现在发现 BS4在处理代码时会改变属性的顺序，比如：
<td height="250" class="infodetail" valign="top" id="TDContent">
上边这行代码经过 BeautifulSoup(htmlstr,'html.parser')处理后会变成
<td class="infodetail" height="250" id="TDContent" valign="top"></td>
很显然，这是根据标签属性的顺序进行了重新排序，然后我再换lxml试了下，
<html><body><td class="infodetail" height="250" id="TDContent" valign="top"></td></body></html>
不光重新排序，还把头尾缺少的<html><body>给补上了。
请问有什么方法能使代码保持原样吗？我只要提取数据就行了，不希望改原代码的顺序，因为以后还要用到，而且html.parser和lxml在处理代码混乱的页面时会补充缺少的标签代码，有时可能会在代码的中间部位就加上了</html>，这样就没法正常提取了。

...全文

419 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

从先前的几篇文章中，我们已经能够使用Requests库构造请求并获得正确的响应，但是在样例中我们也发现了仅使用Requests库的缺陷。... Beautiful Soup 4库是一个在Python爬虫设计中非常流行的数据分析提取.

我们就来介绍一个强大的解析工具Beautiful Soup，它借助网页的结构和属性等特性来解析网页。有了它，我们不用再去写一些复杂的正则表达式，只需要简单的几条语句，就可以完成网页中某个元素的提取。 1、简介简单...

这篇文章我们来介绍一个强大的解析工具Beautiful Soup，它借助网页的结构和属性等特性来解析网页。有了它，我们不用再去写一些复杂的正则表达式，只需要简单的几条语句，就可以完成网页中某个元素的提取。 1.简介 ...

一、Beautiful Soup4简介这个第三方库可以帮助我们来处理请求下来的HTML页面...这里我们会给出Beautiful Soup4的中文文档，学习Pyhton到现在，提供这么详细中文文档的第三方库，还真是不多。如果大家想详细了解学习...

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 ...

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章