爬取腾讯新闻自媒体时候,抓不到包,采集不到数据,请问有什么好办法

负刀入梦里 2018-08-02 05:48:22
以这个链接为例:
https://view.inews.qq.com/media/9408862
我想访问的网页格式是:
https://view.inews.qq.com/media/ +数字
在进行采集中发现,用fiddler和浏览器抓不到想要的数据,这个网页有用的源码很少,请问有什么办法可以采集这种网页吗?
能不能解释一下相关源码的作用,我看了一堆网页相关css 和js,感觉好像全是加密算法
应该可以用selenium模拟抓取,但是这样太慢了..
...全文
1002 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
负刀入梦里 2018-08-04
  • 打赏
  • 举报
回复
====人工置顶====
负刀入梦里 2018-08-03
  • 打赏
  • 举报
回复
引用 1 楼 f091542356 的回复:
用selenium虽然慢,但一直放在那让它自己采集不就好了吗?

1千两百万网页....我用scrapy直接访问都嫌慢...而且要定期更新一次.....听说这种加密js代码可以通过运行js来得到想要的数据,大神了解过这方面的知识吗
负刀入梦里 2018-08-03
  • 打赏
  • 举报
回复
====人工置顶====
Jian_openwrt 2018-08-02
  • 打赏
  • 举报
回复
用selenium虽然慢,但一直放在那让它自己采集不就好了吗?

37,721

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧