Html parser 取不出标签内的内容

代斯Max 2017-09-19 05:18:49

想爬取地址数据，方法都是对的，但想取的内容就像不对外开放似的。就说这个地址branch-address，script内的内容取出来了，li标签内的数据取不出来，为什么？

...全文

411 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

代斯Max 2017-09-19

打赏
举报

回复

引用 1 楼 oyljerry 的回复:

一般是ajax异步返回的内容，它是js动态插入的

谢谢，这样有解决的方法吗？

oyljerry 2017-09-19

打赏
举报

回复

一般是ajax异步返回的内容，它是js动态插入的

HtmlParser可用来解析html,但它并不认识所有标签,如font,strong和自定义标签...而遇到它不认识的标签时提取出来的内容只会是这个标签的开始标签.例如有段Html是加粗字体 ,如果用NodeList nodeList = parser.parser(new TagNameFilter("strong"));提取的话结果就是 .如果想让提取结果是完整的加粗字体,则要扩展HtmlParser,让它认识这个标签,方法是自定义一个类继承自HtmlParser,然后利用PrototypicalNo

背景从网站爬取html，用BeautifulSoup解析标签内容，发现用尽办法都找不到想要的标签。分析过程(1)把urlopen请求到的html打印出来，body是完整的；(2)把BeautifulSoup解析后的soup打印出来，body只有少量的div，很快结束了。但后面还有一堆未格式化的html内容，被排斥在body外；(3)一定是BeautifulSoup解析过程出问题了，由于直接请求到的...

问题链接如下：http://aaxxy.com/vod-detail-i...使用requests请求此连接，然后用BeautifulSoup解析获取 dl > dd > a 标签的内容，其中：上图所示的4个 a 标签的内容只能获取到第一个“电影”，后面三个“动作”“喜剧”“剧情”获取不到，输出结果为None：使用pyquery解析的话连None都不显示，直接跳过这三个标签了：请问为什么会这样？...

有个需求要用到html标签解析，又碰巧之前有人写过，就直接用了之前用的东西https://github.com/blowsie/Pure-JavaScript-HTML5-Parser，git上星不多，不过感觉思路比较特别，和我最开始想的不太一样，稍微看了看原理，总结一下。因为没有release版本，只能写一个commit版本号，3e8b2b1153a40495f9a16506c778d00150...

问题我想爬电影票房的数据，网站是http://www.cbooo.cn/movieweek，我要爬网页最下面的【票房日期：2016-11-14至2016-11-20 单周票房：57271万单周场次：1463995场单周人次：1781万】这些数据，代码如下：from bs4 import BeautifulSoupimport urllib.requestz = input("请输入网址：")...

3,055

社区成员

8,066

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章