抓取时ip被封禁问题

天心流水 2013-11-24 10:33:15
最近需要抓取一个站点的内容,我是用的snoopy来抓的,一开始发现会封ip后,我按照网上的解决方案将user-agent换成了google的蜘蛛的,并且用snoopy进行了伪造了ip(每抓一条就换一个随机ip)但是抓取一百多个页面后还是被封ip导致无法抓取,有什么好的解决方法吗?
...全文
230 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
天心流水 2013-11-25
  • 打赏
  • 举报
回复
引用 1 楼 iasky 的回复:
应该是访问太频繁了。
那该如何解决呢,sleep吗,但是要抓取的数据量很大,如果sleep的话根本没那么多时间抓
iasky 2013-11-25
  • 打赏
  • 举报
回复
应该是访问太频繁了。
天心流水 2013-11-25
  • 打赏
  • 举报
回复
引用 3 楼 PhpNewnew 的回复:
并且用snoopy进行了伪造了ip 这个是忽悠你的..
额,原来如此
邪恶泡泡 2013-11-25
  • 打赏
  • 举报
回复
抓太快管你是谁啊,照封
螃蟹k3179 2013-11-25
  • 打赏
  • 举报
回复
能伪造ip?这。。。
黄袍披身 2013-11-25
  • 打赏
  • 举报
回复
并且用snoopy进行了伪造了ip 这个是忽悠你的..
1、搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。 2、百度蜘蛛会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。当您的网站产生新内容,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的。对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。 3、明显作弊行为有哪些? ①出售首页的友情链接。 ②大量采集其他网站的 。。。。。。。。。。。。。。。 22、利用热门关键词做SEO的 “关键词爆破法”,短期内可能会有收益,但长远来看不利于主动访问用户的养成,有可能影响到搜索引擎对站点的评级。 23、如果链接成为死链之前已被百度搜索引擎收录,设置404后请不要再设置robots封禁,否则会影响搜索引擎对链接的判断和处理。 24、站点ip变更怎么办? 登录百度站长平台,使用抓取诊断工具,抓取诊断工具会检查站点与百度的连接是否畅通,若站长发现IP信息还是老旧的,可以通过“报错”通知百度搜索引擎更新IP。由于spider精力有限,如遇报错后网站IP依旧没有变化,站长可进行多次尝试,直至达到预期。 25、抓取诊断工具可以做什么呢? ①诊断抓取内容是否符合预期。例如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。 ②诊断网页是否被加入黑链接和隐藏文本。网站被黑后加上的隐藏链接从网页表面无法观察看到,这些链接可能只在百度抓取才会出现,可以通过抓取诊断工具进行检查。 ③邀请Baiduspider。如果网站有新页面或页面内容有更新,百度蜘蛛却较长间没有来过,此可以通过抓取诊断工具邀请Baiduspider快速来抓取。 26、多域名同内容的常见问题。 ①多个域名指向同一个域名算是作弊么?

21,886

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧