如何用beautiful soup解析这html 格式

qq_20355823 2017-07-12 11:10:11

如何解析只解析红色部分，绿色部分不要，他们的类名都一样怎么办

...全文

245 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

NG7711 2017-07-18

打赏
举报

回复

二楼正解。不是所有的任务都是直接调用一个api就能搞定的。这种情况就需要分析html结构了。

引用 2 楼 xpresslink 的回复:

你已一个Human的角度来说一下，你是如何识别红色和绿色部分的不同特征加以保留或过滤的？举例来说，绿色部分文字每行开始都有个数字编号，红色部分没有。

LightYXXX 2017-07-18

打赏
举报

回复

for j in range(0,1) s = soup.select('.para p')[j] # 通过传入的j获取所在区的内容 pat = '<p.*?>(.*?)</p>' # 构造提取正则 info['你需要的内容'] = ''.join(list(re.compile(pat).findall(str(s)))) # 使用join将提取的列表转为字符串

the_koala_uncle 2017-07-14

打赏
举报

回复

用findall然后选前两个

sanGuo_uu 2017-07-12

打赏
举报

回复

没办法，解析出来后，判断下，手动去掉

混沌鳄鱼 2017-07-12

打赏
举报

回复

你已一个Human的角度来说一下，你是如何识别红色和绿色部分的不同特征加以保留或过滤的？举例来说，绿色部分文字每行开始都有个数字编号，红色部分没有。

使用Beautiful Soup解析HTML，可以避免繁琐的正则表达式，并且能够在文档结构变化时自动适应。适用人群：适用于Python爬虫开发人员和需要从HTML和XML文档中提取数据的用户。使用场景及目标： Beautiful Soup主要...

Python HTML解析库Beautiful Soup https://xercis.blog.csdn.net/article/details/107041445

这段代码会发送 HTTP 请求，获取网页内容，并使用 Beautiful Soup 解析 HTML 代码。然后，它会提取网页标题并打印出来。希望这个示例代码能帮到您。 requests,BeautifulSoup 这段代码会发送 HTTP 请求，获取网页...

Python 使用Beautiful Soup 爬虫教程 Beautiful Soup是一个可以从HTML或XML中提取数据的Python库。它可以通过你喜欢的转换器快速帮你解析并查找整个HTML文档。 Beautiful Soup自动将输入文档转为Unicode编码，输出...

Beautiful Soup4.2中文文档，快速解析HTML网页，使用非常简单。

37,722

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章