怎么破豆瓣的反爬,还该怎么伪装爬虫

zjz_52 2014-04-12 08:46:09
我最近在做豆瓣的爬虫,现在是用免费的代理ip爬取得,请求的user-agent也设置了,时间间隔设置的是1到10秒任意,但是时间长了,到大概1000页的时候就返回403了,换别的ip也是403,但是如果重新运行程序又可以继续进行,求各位大牛指导下吧,该怎么伪装爬虫才能逃过去呢
...全文
1454 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
xtdfsql 2016-06-03
  • 打赏
  • 举报
回复
这里有现成写好的豆瓣爬虫,可以直接使用, http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=12
waitdream 2014-04-15
  • 打赏
  • 举报
回复
引用 3 楼 zjz_52 的回复:
[quote=引用 2 楼 gagewang1 的回复:] 是否是用了同一个请求,sessionid被禁了?
你说同一个请求是说请求的header都一样吗 我user-agent有五个备用 每次随机选一个 我没设置cookie 有关系吗 怎么看是不是sessionid被禁[/quote] 是不是用同一个个sessionid请求了1000次,看你每次发包时候的sessionid是不是一样的~
zjz_52 2014-04-12
  • 打赏
  • 举报
回复
引用 2 楼 gagewang1 的回复:
是否是用了同一个请求,sessionid被禁了?
你说同一个请求是说请求的header都一样吗 我user-agent有五个备用 每次随机选一个 我没设置cookie 有关系吗 怎么看是不是sessionid被禁
中华雪碧 2014-04-12
  • 打赏
  • 举报
回复
是否是用了同一个请求,sessionid被禁了?

81,120

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧