爬虫：爬取分页，如何保证数据爬全

ostarsier 2015-12-01 02:14:44

我现在在做一个爬取分页的功能。
我是按时间倒序，从第一页开始爬，一直爬到最后一页。
但是我发现每次爬取到20多层的时候就爬取不到了，导致异常。
我不知道是因为被爬网站的ip限制或者别的什么原因，总之就抛异常了。
但是我在爬取第一页时候，就把第一条的时间存储了，以后就只会爬取最新的，爬到存储的时间就不爬了。
比如如果第10页抛异常了，10页后面的数据我就爬取不到。
请问有什么好的办法能保证数据被爬全吗？

...全文

1606 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

offer、绝缘体 2019-09-21

打赏
举报

回复

那就只能使用代理池，禁了再换ip，然后尽可能的控制爬取速度等等

我不是卖车滴！！！ 2019-08-09

打赏
举报

回复

引用 2 楼 caoqinghua 的回复:

[比如如果第10页抛异常了，10页后面的数据我就爬取不到。]
当出现异常的时候,手工打开浏览器访问异常的网址,如果浏览器能正常显示,就是你程序的问题.如果不能,对方服务器把你的ip封了.

被禁掉怎么破解？？？

sigangjun 2015-12-02

打赏
举报

回复

模拟浏览器客户端抓取，直接爬肯定被拒

caoqinghua 2015-12-02

打赏
举报

回复

[比如如果第10页抛异常了，10页后面的数据我就爬取不到。] 当出现异常的时候,手工打开浏览器访问异常的网址,如果浏览器能正常显示,就是你程序的问题.如果不能,对方服务器把你的ip封了.

本爬虫实现的功能：随便在豆瓣网站中选择一部电影，获取影片详细信息，并自动获取该影片的短评链接，再跳转到短评页面，获取各位观众的影评，最后将爬取的数据存储到数据库中。开发环境： python3 + pycharm +WIN +mysql

python实现对于整个网页内容的爬取，简单易写，非常适合对python爬虫的学习。

爬取淘宝商品数据项目的源代码

Java爬虫是通过Java语言编写的网络爬虫程序，用于自动化地浏览和抓取互联网上的数据，并将数据进行处理和保存。为了编写高效且不容易被检测出来的Java爬虫，通常需要掌握Java语言以及与之相关的库和框架，如Jsoup、HttpClient、Selenium等。那么如何快速完成爬虫项目？具体有哪些流程呢？完成一个 Java 爬虫需要以下几个步骤： 1、确定爬取的目标网站和数据结构：首先需要确定要爬取的网站和需要获取的数据结构，这样才能确定需要爬取的页面和数据。 2、分析目标网站的页面结构：需要分析目标网站的页面结构，确定需要爬取的数据在哪些标签中，以及如何通过标签属性获取数据。 3、使用 Java 编写爬虫程序：使用 Java 编写爬虫程序，可以使用 Jsoup 等第三方库来解析 HTML 页面，获取需要的数据。 4、处理爬取到的数据：爬取到的数据需要进行处理，可以将数据保存到数据库中，或者生成 Excel 文件等。 5、设置爬虫的请求头和请求参数：为了避免被目标网站的反爬虫机制识别，需要设置请求头和请求参数，模拟浏览器的请求。 6、设置爬虫的代理：如果需要爬取的

电商网站的分页问题对于爬虫来说是一个挑战，但通过合理的策略和技术，我们可以有效地爬取和处理这些数据。使用requests和BeautifulSoup库可以处理静态分页数据，而对于动态加载的分页数据，则可能需要使用Selenium等工具。在爬取过程中，我们还需要注意优化爬取策略，以避免给目标网站带来过大压力。通过这些技术，我们可以有效地从电商网站中提取有价值的数据。

Hadoop生态社区

20,848

社区成员

4,696

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章