爬虫:爬取分页,如何保证数据爬全

ostarsier 2015-12-01 02:14:44
我现在在做一个爬取分页的功能。
我是按时间倒序,从第一页开始爬,一直爬到最后一页。
但是我发现每次爬取到20多层的时候就爬取不到了,导致异常。
我不知道是因为被爬网站的ip限制或者别的什么原因,总之就抛异常了。
但是我在爬取第一页时候,就把第一条的时间存储了,以后就只会爬取最新的,爬到存储的时间就不爬了。
比如如果第10页抛异常了,10页后面的数据我就爬取不到。
请问有什么好的办法能保证数据被爬全吗?
...全文
1604 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
offer、绝缘体 2019-09-21
  • 打赏
  • 举报
回复
那就只能使用代理池,禁了再换ip,然后尽可能的控制爬取速度等等
  • 打赏
  • 举报
回复
引用 2 楼 caoqinghua 的回复:
[比如如果第10页抛异常了,10页后面的数据我就爬取不到。]
当出现异常的时候,手工打开浏览器访问异常的网址,如果浏览器能正常显示,就是你程序的问题.如果不能,对方服务器把你的ip封了.
被禁掉怎么破解???
sigangjun 2015-12-02
  • 打赏
  • 举报
回复
模拟浏览器客户端抓取,直接爬肯定被拒
caoqinghua 2015-12-02
  • 打赏
  • 举报
回复
[比如如果第10页抛异常了,10页后面的数据我就爬取不到。] 当出现异常的时候,手工打开浏览器访问异常的网址,如果浏览器能正常显示,就是你程序的问题.如果不能,对方服务器把你的ip封了.

20,848

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧