scrapy的header authorization

取啥都被占用 2017-03-27 02:07:19

各位大神小牛，
抓取时候遇到需要用户名密码登录这种情况，想问一下大家是怎么玩的？
本人试验了好久都不成功。
试过中间件HttpAuthMiddleware，没疗效。

又想仿命令行的成功实验：
以下的code参照了这篇：https://stackoverflow.com/questions/42824249/how-can-use-scrapy-shell-with-url-and-basic-auth-credentials

import scrapy

from w3lib.http import basic_auth_header

from scrapy import Request

import sys  # So to export Chinese characters

reload(sys)# So to export Chinese characters

sys.setdefaultencoding('utf8')# So to export Chinese characters



class MyxmlSpider(scrapy.Spider):

	name = "PXML"

	f = open("Batch.txt")

	start_urls = [url.strip() for url in f.readlines()]

	f.close()



	def make_requests_from_url(self,url):

		auth = basic_auth_header("user@xxx.com", "TS!")

		return Request(url,headers={'Authorization':auth})



	def parse(self, response):

		myItems  = ['B','BD','BG','BH','BQ']

                #rest of the code

求有经验的同学点拨，非常谢谢！

...全文

310 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

取啥都被占用 2017-04-02

打赏
举报

回复

自己已经解决了这个问题。关于user-agent，以及之后redirection 报错要加个non_filter的参数。

在Scrapy使用实践中，我们深刻体会到Scrapy框架只实现了爬虫流程，而真正的Scrapy核心是CSS选择器、xpath和正则表达式，所以本课程一开始先讲述了这三门课程，有了这三门课程的基础再学习Scrapy就会非常轻松。

项目使用scrapy框架抓取某网站，代理使用讯代理的自动转发。在程序运行后发现，返回值为auth fail, no auth header。网站为https协议。检查源码发现，scrapy框架自动去除了Proxy-Authorization的头部信息，导致代理不可用。解决办法：进入\site-packages\scrapy\core\downloader\handlers\http11.py注...

最新版 Scrapy 2.6.2 代理设置

背景今天老板让核查新上线的app中的中标数据展示情况，一条一条数据点开看实在是太慢了，于是想抓包获取app请求的api接口以及传入的参数，获取返回的数据内容，将数据存储到sqlite3中直接通过执行sql来统计数据质量。先打开fiddle4,设置好代理，设置如下： mr_酱 mr_酱 scrapy 项目初始化执行命令创建项目： scrapy start...

最近在熟悉爬虫框架的知识，针对代理和模拟请求头的设置有一些疑问，在网上查询了一些文章，总结一下：【设置代理ip】根据最新的scrapy官方文档,scrapy爬虫框架的代理配置有以下两种方法: 一.使用中间件DownloaderMiddleware进行配置使用Scrapy默认方法scrapy startproject创建项目后项目目录结构如下,spider中的crawler是已经写好的爬虫...

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章