如何用Python爬取动态加载的网页数据

暗夜老猫 2015-04-01 03:17:52

之前做过一个爬取一年之内最高气温的python程序。这个程序的网页是静态的，只需要通过循环访问365个html，然后找到每个网页中的最高气温那个标签就可以实现了。

那么问题来了，像京东、人人这样的网站，只有在鼠标滑轮到达最底部时，才会继续加载新的数据出来，那么这些数据怎么爬到？（我试过了，及时滑动到最底部加载出新的数据，网页的源码也还是不变的。。）
或者说，如何把动态加载的数据（还未加载出来）也在该html文件中显示出来？

我是html菜鸟，求大神指点，不胜感激～～

...全文

1940 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

sanGuo_uu 2017-01-17

打赏
举报

回复

如果是静态页面，就是抓了静态页面，然后做分析。动态页面，那你要先抓到它的内容，怎么抓？去网页代码里面看它是怎么动态请求到内容的。（这个，有些网页的代码好看懂，有些网页的很难看懂）然后模拟它请求的方式，把内容抓到。然后做分析

dota爱好者 2017-01-17

打赏
举报

回复

同样遇到这个问题啊，不知道怎么解决？

斯洛文尼亚旅游 2016-08-22

打赏
举报

回复

找数据接口，而不是请求html页面，这样获取不到动态加载的内容，除非内容直接在html页面了，这就是为什么动态加载的内容，js动态生成的内容不利于seo的原因，因为得到的内容就是查看源代码一样的内容

?John 2016-08-21

打赏
举报

回复

同是新手，最近刚好学到，思路大概就是抓包，分析数据，再模拟提交，动态网页一般就返回json格式的数据，挺好解析的

Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码Python 如何爬取网页中动态加载的数据 Python源码

Python源码07如何爬取网页中动态加载的数据.zip

常见的反爬机制及处理方式 1、Headers反爬虫：Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制：网站根据IP地址访问频率进行反爬,短时间内进制IP访问解决方案: 1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池 2、购买开放代理或私密代理IP 3、降低爬取的速度 3、User-Agent限制：类似于IP限制解决方案: 构造自己的User-Agent池,每次访问随机选择 5、对查询参数或Form表单数据认证(salt、sign) 解决方案: 找到JS文件,分析JS处理方法

Python爬取东方财富公司公告，使用Selenium，等待Ajax加载和实现自动翻页，

网络爬虫-如何爬取网页中动态加载的数据-Python实例源码网络爬虫-如何实现定时爬取网页内容-Python实例源码内部包含详细使用说明文档

87,992

社区成员

224,688

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章