如何用Python爬取动态加载的网页数据

暗夜老猫 2015-04-01 03:17:52
之前做过一个爬取一年之内最高气温的python程序。这个程序的网页是静态的,只需要通过循环访问365个html,然后找到每个网页中的最高气温那个标签就可以实现了。

那么问题来了,像京东、人人这样的网站,只有在鼠标滑轮到达最底部时,才会继续加载新的数据出来,那么这些数据怎么爬到?(我试过了,及时滑动到最底部加载出新的数据,网页的源码也还是不变的。。)
或者说,如何把动态加载的数据(还未加载出来)也在该html文件中显示出来?


我是html菜鸟,求大神指点,不胜感激~~
...全文
1849 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
sanGuo_uu 2017-01-17
  • 打赏
  • 举报
回复
如果是静态页面,就是抓了静态页面,然后做分析。 动态页面,那你要先抓到它的内容, 怎么抓? 去网页代码里面看它是怎么动态请求到内容的。(这个,有些网页的代码好看懂,有些网页的很难看懂) 然后模拟它请求的方式,把内容抓到。 然后做分析
dota爱好者 2017-01-17
  • 打赏
  • 举报
回复
同样遇到这个问题啊,不知道怎么解决?
Go 旅城通票 2016-08-22
  • 打赏
  • 举报
回复
找数据接口,而不是请求html页面,这样获取不到动态加载的内容,除非内容直接在html页面了,这就是为什么动态加载的内容,js动态生成的内容不利于seo的原因,因为得到的内容就是查看源代码一样的内容
?John 2016-08-21
  • 打赏
  • 举报
回复
同是新手,最近刚好学到,思路大概就是抓包,分析数据,再模拟提交,动态网页一般就返回json格式的数据,挺好解析的

87,904

社区成员

发帖
与我相关
我的任务
社区描述
Web 开发 JavaScript
社区管理员
  • JavaScript
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧