网络爬虫IP被封,求高手

qq675927952 2010-11-27 08:30:45

最经做个项目,先写个爬虫爬些训练数据,可是爬了2个小时IP就被封了,现在应该怎么办,求高手,谁有没有好的想法,或者具体的解决方法...

...全文

736 11 打赏收藏转发到动态举报

写回复

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

jianghuxiaobo 2010-11-30

打赏
举报

回复

学习，学习

whrspsoft3723 2010-11-30

打赏
举报

回复

[Quote=引用 9 楼 qq675927952 的回复:]

一个服务器一个线程主,那你怎么判断哪些已经爬过了..[/Quote]

那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的，我们用的是url标识。

qq675927952 2010-11-28

打赏
举报

回复

[Quote=引用 8 楼 whrspsoft3723 的回复:]
引用 6 楼 qq675927952 的回复:
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了，web服务器返回的错误代码。

具体到网上搜下“909，错误信息",就应该会有结果。

我只用了6个线程..

根据本人的经验，一个服务器一个线程主，也会出错。
我经手的程序采集时是几十到几百个线程（服务器内存cpu都配置稍高了点）一起采集，一个线……
[/Quote]
一个服务器一个线程主,那你怎么判断哪些已经爬过了..

whrspsoft3723 2010-11-27

打赏
举报

回复

[Quote=引用 6 楼 qq675927952 的回复:]
引用 3 楼 whrspsoft3723 的回复:
应该是你的采集频率太快了，web服务器返回的错误代码。

具体到网上搜下“909，错误信息",就应该会有结果。

我只用了6个线程..
[/Quote]
根据本人的经验，一个服务器一个线程主，也会出错。
我经手的程序采集时是几十到几百个线程（服务器内存cpu都配置稍高了点）一起采集，一个线程只采集一个站点，中间还要加上延时。
居然让你采集了二个小时才封你，他们还真是有点照顾你了。

iambic 2010-11-27

打赏
举报

回复

买个教训吧。连续抓两个小时的数据，显然是恶意抓取了。又是想把百度知道山寨成我知道吗？

qq675927952 2010-11-27

打赏
举报

回复

[Quote=引用 3 楼 whrspsoft3723 的回复:]
应该是你的采集频率太快了，web服务器返回的错误代码。

具体到网上搜下“909，错误信息",就应该会有结果。
[/Quote]

我只用了6个线程..

qq675927952 2010-11-27

打赏
举报

回复

[Quote=引用 4 楼 zhgroup 的回复:]
如果你采集的机器是ADSL拔号的，可以断线重拔号继续采集，如果是固定IP这种，那就想办法使用代理吧
[/Quote]

是固定IP

zhgroup 2010-11-27

打赏
举报

回复

如果你采集的机器是ADSL拔号的，可以断线重拔号继续采集，如果是固定IP这种，那就想办法使用代理吧

whrspsoft3723 2010-11-27

打赏
举报

回复

应该是你的采集频率太快了，web服务器返回的错误代码。

具体到网上搜下“909，错误信息",就应该会有结果。

qq675927952 2010-11-27

打赏
举报

回复

Unable to process request at this time -- error 999
请问一下,这个错误是什么错..

whrspsoft3723 2010-11-27

打赏
举报

回复

限制下采集的频率，比如说 1000ms等待一下。
要不就使用代理或换ip.

如果采集速度过快，后两种也避免不了被封的命运。

同时，避免过于频繁的请求，防止IP被封。四、实战案例 1. **棋谱爬取**：编写一个Python脚本，定位到包含棋谱的网页，解析HTML结构，提取每一步的棋子位置，存储为文本或数据库格式。 2. **AI训练数据获取**：若...

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛(Baiduspider)，也有不但不遵守 robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛(YisouSpider)(最新补充：宜搜蜘蛛已...

搞爬虫的朋友们肯定遇到过这个抓狂时刻：代码明明写对了，结果刚运行就被网站封IP！），问题的关键往往出在请求频率和身份伪装上。最后提醒大家：技术是把双刃剑，一定要在法律允许的范围内使用爬虫技术！上周我帮...

爬虫从从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，...今天跟大家分享29个爬虫项目，成为爬虫高手指日可待！

Python爬虫高手必备的8大技巧！

70,026

社区成员

243,244

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章