如何用beautiful soup解析这html 格式

qq_20355823 2017-07-12 11:10:11

如何解析只解析红色部分,绿色部分不要,他们的类名都一样怎么办
...全文
245 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
NG7711 2017-07-18
  • 打赏
  • 举报
回复
二楼正解。不是所有的任务都是直接调用一个api就能搞定的。 这种情况就需要分析html结构了。
引用 2 楼 xpresslink 的回复:
你已一个Human的角度来说一下,你是如何识别红色和绿色部分的不同特征加以保留或过滤的? 举例来说,绿色部分文字每行开始都有个数字编号,红色部分没有。
LightYXXX 2017-07-18
  • 打赏
  • 举报
回复
for j in range(0,1) s = soup.select('.para p')[j] # 通过传入的j获取所在区的内容 pat = '<p.*?>(.*?)</p>' # 构造提取正则 info['你需要的内容'] = ''.join(list(re.compile(pat).findall(str(s)))) # 使用join将提取的列表转为字符串
the_koala_uncle 2017-07-14
  • 打赏
  • 举报
回复
用findall然后选前两个
sanGuo_uu 2017-07-12
  • 打赏
  • 举报
回复
没办法,解析出来后,判断下,手动去掉
混沌鳄鱼 2017-07-12
  • 打赏
  • 举报
回复
你已一个Human的角度来说一下,你是如何识别红色和绿色部分的不同特征加以保留或过滤的? 举例来说,绿色部分文字每行开始都有个数字编号,红色部分没有。

37,722

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧