社区
C语言
帖子详情
网络爬虫IP被封,求高手
qq675927952
2010-11-27 08:30:45
最经做个项目,先写个爬虫爬些 训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...
...全文
730
11
打赏
收藏
网络爬虫IP被封,求高手
最经做个项目,先写个爬虫爬些 训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
jianghuxiaobo
2010-11-30
打赏
举报
回复
学习,学习
whrspsoft3723
2010-11-30
打赏
举报
回复
[Quote=引用 9 楼 qq675927952 的回复:]
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..[/Quote]
那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的, 我们用的是url标识。
qq675927952
2010-11-28
打赏
举报
回复
[Quote=引用 8 楼 whrspsoft3723 的回复:]
引用 6 楼 qq675927952 的回复:
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
我只用了6个线程..
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线……
[/Quote]
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..
whrspsoft3723
2010-11-27
打赏
举报
回复
[Quote=引用 6 楼 qq675927952 的回复:]
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
我只用了6个线程..
[/Quote]
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线程只采集一个站点, 中间还要加上延时。
居然让你采集了二个小时才封你,他们还真是有点照顾你了。
iambic
2010-11-27
打赏
举报
回复
买个教训吧。连续抓两个小时的数据,显然是恶意抓取了。又是想把百度知道山寨成我知道吗?
qq675927952
2010-11-27
打赏
举报
回复
[Quote=引用 3 楼 whrspsoft3723 的回复:]
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
[/Quote]
我只用了6个线程..
qq675927952
2010-11-27
打赏
举报
回复
[Quote=引用 4 楼 zhgroup 的回复:]
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
[/Quote]
是固定IP
zhgroup
2010-11-27
打赏
举报
回复
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
whrspsoft3723
2010-11-27
打赏
举报
回复
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
qq675927952
2010-11-27
打赏
举报
回复
Unable to process request at this time -- error 999
请问一下,这个错误是什么错..
whrspsoft3723
2010-11-27
打赏
举报
回复
限制下采集的频率,比如说 1000ms等待一下。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
五子棋(控制台版)程序使用说明
爬虫
-五子棋(控制台版)程序使用说明
php
爬虫
ip
被
封
,服务器反
爬虫
攻略Nginx/PHP禁止某些User Agent抓取网站
我们都知道
网络
上的
爬虫
非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守 robots 规则对服务器造成压力,还不能为网站带来流量的无用
爬虫
,比如宜搜蜘蛛(YisouSpider)(最新补充:宜搜蜘蛛已被 UC 神马搜索收购!所以本文已去掉宜搜蜘蛛的禁
封
!)。最近发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了
网络
上各种禁止垃圾蜘蛛爬站的方法,...
【附源码】想成为Python
爬虫
高手
,这29个
爬虫
项目不容错过
爬虫
从从技术层面来说就是通过程序模拟浏览器请
求
站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。今天跟大家分享29个
爬虫
项目,成为
爬虫
高手
指日可待!
Python
爬虫
高手
必备的8大技巧!
Python
爬虫
高手
必备的8大技巧!
良心推荐!Python
爬虫
高手
必备的8大技巧!
可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。
爬虫
在开发过程中也有很多复用的过程,今天就总结一下必备的8大技巧,以后也能省时省力,高效完成任务。1get方法post方法2在开发
爬虫
过程中经常会遇到的情况,这时就需要用到代理
IP
;在urllib2包中有ProxyHandler类,通过此类可以设置,如下代码片段:3cookies是某些网站为了。
C语言
70,023
社区成员
243,263
社区内容
发帖
与我相关
我的任务
C语言
C语言相关问题讨论
复制链接
扫一扫
分享
社区描述
C语言相关问题讨论
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章