scrapy爬取58同城信息提示"Ignoring response <400"

chsassume 2016-09-21 03:10:41
大家好,我在使用scrapy爬取数据遇到页面重定向(302), 重定向2次后访问最终地址是返回错误"Ignoring response <400 ", 网上搜寻没有找到合适的解决方法, 请大家帮忙看看, 部分日志如下:
2016-09-21 11:00:34 [scrapy] DEBUG: Redirecting (302) to <GET http://wzt.5858.com/t/u46248157/p1001?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> from <GET http://jump.zhineng.58.com/jump?target=pZwY0jCfsLIlIa3drjN3shPfUiqYsLNYPWcYrjDdPzqknHTknEDQnHc1nHnknjNQrHnzPHmkP1n3nWnLnH0QnjbKPjmzPj9QPH0KnEDzPHnvP1TzPjnkrHnQn9DLnjTKP1TkTHDYn1cvTHcKnHELPjEzPW91nW9zPTDQTyQG0Lw_uyuYTHDKnWEKnWTQPWTOnHFxpZR6UhIOuRqYpyd-g1TLnWKxPgkQTiYQTEDkTHTKTyu6UZP-TyELPhD1ujmvsyD1rHEVPAEkPadBnyndsywhmvN1nyEOrjP6mkDzrHnQP1DzP9DQrj9OrjTvnWEOPWTLPW9KTHDYn1cvTHcKnEDKTEDKpZwY0jCfsLPCsWN3shPfUiqYuyPCmyOMsLK8nWEfTyndsvO1nyuCrH6wmyCLwAQDmNdCEy0q5EDQnHN8nWb8nHELsWDQnkDkTyP-njTkuWnLrjD3mhmOuHm&adact=5&psid=112313005193256073823717109&entinfo=25367024309312_0>
2016-09-21 11:00:34 [scrapy] DEBUG: Redirecting (302) to <GET http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> from <GET http://wzt.5858.com/t/u46248157/p1001?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109>
2016-09-21 11:00:34 [scrapy] DEBUG: Crawled (400) <GET http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> (referer: http://sh.58.com/techang/pn24/)
2016-09-21 11:00:34 [scrapy] DEBUG: Ignoring response <400 http://t5831532752309282.5858.com?adtype=1&entinfo=22205869056906_0&adact=5&psid=189869069193256073875763748>: HTTP status code is not handled or not allowed
2016-09-21 11:00:34 [scrapy] DEBUG: Ignoring response <400 http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109>: HTTP status code is not handled or not allowed
2016-09-21 11:00:34 [scrapy] DEBUG: Crawled (200) <GET http://sh.58.com/techang/pn27/> (referer: http://sh.58.com/techang/pn26/)

我有尝试过使用或者禁用cookie,设置meta = {'handle_httpstatus_list': [302],都没解决到这个问题。请大家帮忙看看,谢谢。
...全文
685 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
Q-CODER 2018-09-04
  • 打赏
  • 举报
回复
尝试把setting.py的cookie 设置为false 不向服务的发送cookie 请求
chsassume 2016-09-22
  • 打赏
  • 举报
回复

def parse(self, response):
  # 是否有下一页
next_flag = self.is_next(response)
urls = self.techang_urls(response)

for url in urls:
yield scrapy.Request(url, callback=self.parse_page,
#meta = {'handle_httpstatus_list': [302]},
dont_filter=True
)、
if next_flag:
url = self.base_url.format(self.page)
self.page = self.page + 1
yield scrapy.Request(url, dont_filter=True, callback=self.parse)


现把代码贴出, 配置文件setting.py就是设置了cookie. 请大家帮忙看看,谢谢!

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧