用bs4获取html中的标签

biyinglian 2017-07-18 07:48:25
以下是我复制某网页的一部分html
如果我想获取:急急急,女朋友让我去她家吃披萨在线等,男生应该有哪些有逼格的爱好?这样的标题
用bs4怎么实现呢?
我自己尝试的写是这样的:

result=soup.find_all('td',class_='p_title').
print result

但是返回的结果不是我想要的,请问各位大神,我应该怎么做呢?


<td id="" class="p_title"><div id="19746772sh"></div>

<a id="" href="/19746772.html">急急急,女朋友让我去她家吃披萨在线等</a>

 </td><td class="p_author"><a class="u" target="_blank" href="https://my.hupu.com/184602357983896">花还会开</a><br />2017-07-18</td><td class="p_re">10 / 161</td><td class="p_retime"><a href="/19746772.html#o" title="查看最后回复">18:41</a><br />青芥</td></tr>

<tr mid="19746160"><td class="p_chkbox">

 

</td><td id="" class="p_title"><div id="19746160sh"></div>

<a id="" href="/19746160.html">男生应该有哪些有逼格的爱好?</a>

<span class="light_r "><a title="有3个亮了的回帖"> </a></span> [ <span class="multipage"> <a href="/19746160-2.html">2</a> <a href="/19746160-3.html">3</a> .. <a href="/19746160-6.html">6</a></span> ] </td><td class="p_author"><a class="u" target="_blank" href="https://my.hupu.com/47312630460423">乔治携手拉文会师湖人</a><br />2017-07-18</td><td class="p_re">109 / 20387</td><td class="p_retime"><a href="/19746160-6.html#o" title="查看最后回复">18:41</a><br />田俊六</td></tr>

<tr mid="19646664"><td class="p_chkbox">

 

</td>
...全文
593 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
屎克螂 2017-07-19
  • 打赏
  • 举报
回复
正则: for d in re.findall('<a id="" href=".*?">(.+?)</a>', data): print d bs4没怎么用过,建议你用pyquery
NG7711 2017-07-18
  • 打赏
  • 举报
回复
你需要的东西是在td的child node里面。 所以你的code应该是这样的 a = BeautifulSourp("xxxxxxxxxxxxxxx") a.td.contents[1].string contents[1] 索引是 1 针对这种情况hard code,你自己有需要就需要就自己看看怎么写个比较灵活的code。

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧