社区
C语言
帖子详情
网络爬虫IP被封,求高手
qq675927952
2010-11-27 08:30:45
最经做个项目,先写个爬虫爬些 训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...
...全文
732
11
打赏
收藏
网络爬虫IP被封,求高手
最经做个项目,先写个爬虫爬些 训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
jianghuxiaobo
2010-11-30
打赏
举报
回复
学习,学习
whrspsoft3723
2010-11-30
打赏
举报
回复
[Quote=引用 9 楼 qq675927952 的回复:]
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..[/Quote]
那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的, 我们用的是url标识。
qq675927952
2010-11-28
打赏
举报
回复
[Quote=引用 8 楼 whrspsoft3723 的回复:]
引用 6 楼 qq675927952 的回复:
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
我只用了6个线程..
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线……
[/Quote]
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..
whrspsoft3723
2010-11-27
打赏
举报
回复
[Quote=引用 6 楼 qq675927952 的回复:]
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
我只用了6个线程..
[/Quote]
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线程只采集一个站点, 中间还要加上延时。
居然让你采集了二个小时才封你,他们还真是有点照顾你了。
iambic
2010-11-27
打赏
举报
回复
买个教训吧。连续抓两个小时的数据,显然是恶意抓取了。又是想把百度知道山寨成我知道吗?
qq675927952
2010-11-27
打赏
举报
回复
[Quote=引用 3 楼 whrspsoft3723 的回复:]
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
[/Quote]
我只用了6个线程..
qq675927952
2010-11-27
打赏
举报
回复
[Quote=引用 4 楼 zhgroup 的回复:]
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
[/Quote]
是固定IP
zhgroup
2010-11-27
打赏
举报
回复
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
whrspsoft3723
2010-11-27
打赏
举报
回复
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
qq675927952
2010-11-27
打赏
举报
回复
Unable to process request at this time -- error 999
请问一下,这个错误是什么错..
whrspsoft3723
2010-11-27
打赏
举报
回复
限制下采集的频率,比如说 1000ms等待一下。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
五子棋(控制台版)程序使用说明
爬虫
-五子棋(控制台版)程序使用说明
php
爬虫
ip
被
封
,服务器反
爬虫
攻略Nginx/PHP禁止某些User Agent抓取网站
我们都知道
网络
上的
爬虫
非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守 robots 规则对服务器造成压力,还不能为网站带来流量的无用
爬虫
,比如宜搜蜘蛛(YisouSpider)(最新补充:宜搜蜘蛛已被 UC 神马搜索收购!所以本文已去掉宜搜蜘蛛的禁
封
!)。最近发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了
网络
上各种禁止垃圾蜘蛛爬站的方法,...
【附源码】想成为Python
爬虫
高手
,这29个
爬虫
项目不容错过
爬虫
从从技术层面来说就是通过程序模拟浏览器请
求
站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。今天跟大家分享29个
爬虫
项目,成为
爬虫
高手
指日可待!
Python
爬虫
与代理
IP
:高效抓取数据的实战指南(超详细版)
搞
爬虫
的朋友们肯定遇到过这个抓狂时刻:代码明明写对了,结果刚运行就被网站
封
IP
!),问题的关键往往出在请
求
频率和身份伪装上。最后提醒大家:技术是把双刃剑,一定要在法律允许的范围内使用
爬虫
技术!上周我帮朋友抓取某招聘网站数据时,就遭遇了"滑铁卢":连续请
求
50次后直接403 Forbidden。A:短期测试可以,长期使用建议购买商业代理(免费代理存活率不到10%!A:试试异步请
求
库(aiohttp)配合代理池,速度提升10倍不是梦!A:推荐使用第三方打码平台(如超级鹰),准确率高达98%Q:数据抓取速度慢?
Python
爬虫
高手
必备的8大技巧!
Python
爬虫
高手
必备的8大技巧!
C语言
70,026
社区成员
243,262
社区内容
发帖
与我相关
我的任务
C语言
C语言相关问题讨论
复制链接
扫一扫
分享
社区描述
C语言相关问题讨论
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章