webmagic 爬取页面信息问题

ve1 2016-10-31 06:09:55
爬取一个也面信息中的a标签里面的全部信息,原页面显示是这样的
  
<div class="ui-item-right">
<a href="javascript:window.location.href='http://a.vmall.com:80/soft/25/download' " class="app-btn-go imgbg"></a>
</div>


然后我在webmagic processor中这样写

List<String> list = page.getHtml().xpath("div[@class='ui-item-right']/a").all();


然而获取到的href那里的信息是这样的:href="javascript:window.location.href=" http: a.vmall.com:80 oft 5 ownload""

/和后面的第一位都没了 为什么啊??
...全文
589 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
Nimowen 2019-10-14
  • 打赏
  • 举报
回复
引用 2 楼 j251013371 的回复:
xpath("div[@class='ui-item-right']/a/@href") 这样就可以获取href里的内容了。
要是一个标签下不止有一个a标签呢?我这样page.putField("url",page.getHtml().xpath("//*[@id='5768']/li/a/@href").toString()); 爬的话只能爬到第一个
Nimowen 2019-10-14
  • 打赏
  • 举报
回复
要是一个标签下不止有一个a标签呢?我这样page.putField("url",page.getHtml().xpath("//*[@id='5768']/li/a/@href").toString()); 爬的话只能爬到第一个
j251013371 2018-01-11
  • 打赏
  • 举报
回复
xpath("div[@class='ui-item-right']/a/@href") 这样就可以获取href里的内容了。
ve1 2016-10-31
  • 打赏
  • 举报
回复

50,528

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧