scrapy爬取58同城信息提示"Ignoring response <400"

chsassume 2016-09-21 03:10:41

大家好，我在使用scrapy爬取数据遇到页面重定向(302), 重定向2次后访问最终地址是返回错误"Ignoring response <400 ", 网上搜寻没有找到合适的解决方法, 请大家帮忙看看, 部分日志如下:
2016-09-21 11:00:34 [scrapy] DEBUG: Redirecting (302) to <GET http://wzt.5858.com/t/u46248157/p1001?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> from <GET http://jump.zhineng.58.com/jump?target=pZwY0jCfsLIlIa3drjN3shPfUiqYsLNYPWcYrjDdPzqknHTknEDQnHc1nHnknjNQrHnzPHmkP1n3nWnLnH0QnjbKPjmzPj9QPH0KnEDzPHnvP1TzPjnkrHnQn9DLnjTKP1TkTHDYn1cvTHcKnHELPjEzPW91nW9zPTDQTyQG0Lw_uyuYTHDKnWEKnWTQPWTOnHFxpZR6UhIOuRqYpyd-g1TLnWKxPgkQTiYQTEDkTHTKTyu6UZP-TyELPhD1ujmvsyD1rHEVPAEkPadBnyndsywhmvN1nyEOrjP6mkDzrHnQP1DzP9DQrj9OrjTvnWEOPWTLPW9KTHDYn1cvTHcKnEDKTEDKpZwY0jCfsLPCsWN3shPfUiqYuyPCmyOMsLK8nWEfTyndsvO1nyuCrH6wmyCLwAQDmNdCEy0q5EDQnHN8nWb8nHELsWDQnkDkTyP-njTkuWnLrjD3mhmOuHm&adact=5&psid=112313005193256073823717109&entinfo=25367024309312_0>
2016-09-21 11:00:34 [scrapy] DEBUG: Redirecting (302) to <GET http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> from <GET http://wzt.5858.com/t/u46248157/p1001?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109>
2016-09-21 11:00:34 [scrapy] DEBUG: Crawled (400) <GET http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109> (referer: http://sh.58.com/techang/pn24/)
2016-09-21 11:00:34 [scrapy] DEBUG: Ignoring response <400 http://t5831532752309282.5858.com?adtype=1&entinfo=22205869056906_0&adact=5&psid=189869069193256073875763748>: HTTP status code is not handled or not allowed
2016-09-21 11:00:34 [scrapy] DEBUG: Ignoring response <400 http://haisen.5858.com?adtype=1&entinfo=25367024309312_0&adact=5&psid=112313005193256073823717109>: HTTP status code is not handled or not allowed
2016-09-21 11:00:34 [scrapy] DEBUG: Crawled (200) <GET http://sh.58.com/techang/pn27/> (referer: http://sh.58.com/techang/pn26/)

我有尝试过使用或者禁用cookie，设置meta = {'handle_httpstatus_list': [302]，都没解决到这个问题。请大家帮忙看看,谢谢。

...全文

685 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

Q-CODER 2018-09-04

打赏
举报

尝试把setting.py的cookie 设置为false 不向服务的发送cookie 请求

chsassume 2016-09-22

打赏
举报



  def parse(self, response):

　　#　是否有下一页

        next_flag = self.is_next(response)

        urls = self.techang_urls(response)



        for url in urls:

            yield scrapy.Request(url, callback=self.parse_page,

                                    #meta = {'handle_httpstatus_list': [302]},

                                    dont_filter=True

                                )、

        if next_flag:

            url = self.base_url.format(self.page)

            self.page = self.page + 1

            yield scrapy.Request(url, dont_filter=True, callback=self.parse)

现把代码贴出，配置文件setting.py就是设置了cookie. 请大家帮忙看看，谢谢！