python 3 用xpath解析html

tianke0711 2016-06-07 03:00:29
你好!我想用python 3 xpath解析一段html ,比如如下:
<html><body>
<div class =“[size=12px]item”>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
<div class = "movie">
<div class = "name" >
<ul>[url=http://]
<li class="item-0"><a href="link1.html">movie a</a></li>
<li class="item-1"><a href="link2.html">movie b</a></li>
<li class="item-inactive"><a href="link3.html">movie c</a></li>
<li class="item-1"><a href="link4.html">movie d</a></li>
</ul>
</div>
</div>
</body>
</html>


我个人只想要这一段html:
<div class = "movie">
<div class = "name" >
<ul>
<li class="item-0"><a href="link1.html">movie a</a></li>
<li class="item-1"><a href="link2.html">movie b</a></li>
<li class="item-inactive"><a href="link3.html">movie c</a></li>
<li class="item-1"><a href="link4.html">movie d</a></li>
</ul>
</div>
</div>


我用的是以下方法:
import requests
page = requests.get('........html')
tree = html.fromstring(page.content)
body = tree.xpath('//div[contains(@class, "movie")]')
print('body:', body)

但是我的返回值是[]

请高手的你帮忙替我解决一下(必须用xpath, 不能用其他方法),在此表示感谢。


...全文
524 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
baidu_36261762 2016-09-28
  • 打赏
  • 举报
回复
body = tree.xpath('//div[contains(@class, "movie")]') 换成 body = tree.xpath('//div[@class="movie"]/text()').extract()

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧