用bs4获取html中的标签

biyinglian 2017-07-18 07:48:25

以下是我复制某网页的一部分html
如果我想获取：急急急，女朋友让我去她家吃披萨在线等，男生应该有哪些有逼格的爱好？这样的标题
用bs4怎么实现呢？
我自己尝试的写是这样的：

result=soup.find_all('td',class_='p_title').
print result

但是返回的结果不是我想要的，请问各位大神，我应该怎么做呢？

<td id="" class="p_title"><div id="19746772sh"></div>

<a id="" href="/19746772.html">急急急，女朋友让我去她家吃披萨在线等</a>

</td><td class="p_author"><a class="u" target="_blank" href="https://my.hupu.com/184602357983896">花还会开</a><br />2017-07-18</td><td class="p_re">10 / 161</td><td class="p_retime"><a href="/19746772.html#o" title="查看最后回复">18:41</a><br />青芥</td></tr>

<tr mid="19746160"><td class="p_chkbox">

</td><td id="" class="p_title"><div id="19746160sh"></div>

<a id="" href="/19746160.html">男生应该有哪些有逼格的爱好？</a>

<span class="light_r "><a title="有3个亮了的回帖"> </a></span> [ <span class="multipage"> <a href="/19746160-2.html">2</a> <a href="/19746160-3.html">3</a> .. <a href="/19746160-6.html">6</a></span> ] </td><td class="p_author"><a class="u" target="_blank" href="https://my.hupu.com/47312630460423">乔治携手拉文会师湖人</a><br />2017-07-18</td><td class="p_re">109 / 20387</td><td class="p_retime"><a href="/19746160-6.html#o" title="查看最后回复">18:41</a><br />田俊六</td></tr>

<tr mid="19646664"><td class="p_chkbox">

</td>

...全文

593 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

屎克螂 2017-07-19

打赏
举报

正则： for d in re.findall('<a id="" href=".*?">(.+?)</a>', data): print d bs4没怎么用过，建议你用pyquery

NG7711 2017-07-18

打赏
举报

你需要的东西是在td的child node里面。所以你的code应该是这样的 a = BeautifulSourp("xxxxxxxxxxxxxxx") a.td.contents[1].string contents[1] 索引是 1 针对这种情况hard code，你自己有需要就需要就自己看看怎么写个比较灵活的code。