网络爬虫IP被封,求高手

qq675927952 2010-11-27 08:30:45
最经做个项目,先写个爬虫爬些 训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...
...全文
729 11 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
jianghuxiaobo 2010-11-30
  • 打赏
  • 举报
回复
学习,学习
whrspsoft3723 2010-11-30
  • 打赏
  • 举报
回复
[Quote=引用 9 楼 qq675927952 的回复:]


一个服务器一个线程主,那你怎么判断 哪些已经爬过了..[/Quote]

那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的, 我们用的是url标识。
qq675927952 2010-11-28
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 whrspsoft3723 的回复:]
引用 6 楼 qq675927952 的回复:
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。

具体到网上搜下“909, 错误信息",就应该会有结果。


我只用了6个线程..

根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线……
[/Quote]
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..
whrspsoft3723 2010-11-27
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 qq675927952 的回复:]
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。

具体到网上搜下“909, 错误信息",就应该会有结果。


我只用了6个线程..
[/Quote]
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线程只采集一个站点, 中间还要加上延时。
居然让你采集了二个小时才封你,他们还真是有点照顾你了。


iambic 2010-11-27
  • 打赏
  • 举报
回复
买个教训吧。连续抓两个小时的数据,显然是恶意抓取了。又是想把百度知道山寨成我知道吗?
qq675927952 2010-11-27
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 whrspsoft3723 的回复:]
应该是你的采集频率太快了,web服务器返回的错误代码。

具体到网上搜下“909, 错误信息",就应该会有结果。
[/Quote]

我只用了6个线程..
qq675927952 2010-11-27
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 zhgroup 的回复:]
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
[/Quote]

是固定IP
zhgroup 2010-11-27
  • 打赏
  • 举报
回复
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
whrspsoft3723 2010-11-27
  • 打赏
  • 举报
回复
应该是你的采集频率太快了,web服务器返回的错误代码。

具体到网上搜下“909, 错误信息",就应该会有结果。
qq675927952 2010-11-27
  • 打赏
  • 举报
回复
Unable to process request at this time -- error 999
请问一下,这个错误是什么错..
whrspsoft3723 2010-11-27
  • 打赏
  • 举报
回复
限制下采集的频率,比如说 1000ms等待一下。
要不就使用代理或换ip.

如果采集速度过快,后两种也避免不了被封的命运。

70,022

社区成员

发帖
与我相关
我的任务
社区描述
C语言相关问题讨论
社区管理员
  • C语言
  • 花神庙码农
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧