社区
Web 开发
帖子详情
如何通过post请求获取知乎的登录信息
windofme1109
2018-04-13 10:07:54
新手一枚,最近在学习java爬虫,用的是HttpClient开发包,现在需要模拟登录知乎,我查阅了不少文章,都需要分析post请求,就是看看在登录知乎的过程中向服务器发了哪些参数,但是我用的火狐浏览器(最新版),通过按f12查看这个过程,但是根本没有找到我需要的登录参数,不知道这是这么回事,恳请大神指导。如何查看网站登录过程中浏览器传输的参数。
...全文
844
2
打赏
收藏
如何通过post请求获取知乎的登录信息
新手一枚,最近在学习java爬虫,用的是HttpClient开发包,现在需要模拟登录知乎,我查阅了不少文章,都需要分析post请求,就是看看在登录知乎的过程中向服务器发了哪些参数,但是我用的火狐浏览器(最新版),通过按f12查看这个过程,但是根本没有找到我需要的登录参数,不知道这是这么回事,恳请大神指导。如何查看网站登录过程中浏览器传输的参数。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
windofme1109
2018-04-14
打赏
举报
回复
引用 1 楼 E_mKs 的回复:
用Fidder拦截看看吧
主要是查看哪些参数,这个软件不太会用
叫我阿喵
2018-04-14
打赏
举报
回复
用Fidder拦截看看吧
Python 模拟爬虫抓取
知乎
用户
信息
.rar
Python 模拟爬虫抓取
知乎
用户
信息
以及人际拓扑关系,使用scrapy爬虫框架,数据存储使用mongo数据库。 本地运行请注意:爬虫依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令: celery -A zhihu.tools.async worker --loglevel=info 爬虫项目部署: 进入zhihu_spider后执行```docker-compose up``` ,进入container后和本地运行方法相同,依次启动mongo、rabbitmq、异步任务、爬虫进程即可。 其它需要说明的问题: 爬虫框架从start\_requests开始执行,此部分会提交
知乎
主页的访问
请求
给引擎,并设置回调函数为
post
_login.
post
\_login解析主页
获取
\_xsrf保存为成员变量中,并提交登陆的
POST
请求
,设置回调函数为after\_login. after\_login拿到登陆后的cookie,提交一个start\_url的GET
请求
给爬虫引擎,设置回调函数parse\_people. parse\_people解析个人主页,一次提交关注人和粉丝列表页面到爬虫引擎,回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。 parse\_follow会解析用户列表,同时把动态的人员列表
POST
请求
发送只引擎,回调函数是parse\_
post
\_follow,把解析好的用户主页链接
请求
也发送到引擎,人员关系写入mongo。 parse\_
post
\_follow单纯解析用户列表,提交用户主页
请求
至引擎。
ZhihuSpider:最简单的爬虫
获取
知乎
首页内容
ZhihuSpider 本来想用nodejs对
知乎
进行模拟登陆,抓取
信息
通过request
post
发送用户名和密码的方式,可以进行登陆,但是需要输入验证码,用程序来识别感觉太麻烦。 最后想到用cookie的方式来解决就很简单了。 打开Chrome控制台,查看
知乎
首页的
请求
,就能看到Cookie,试了几下还真的可以。按照这个方法,可以轻松构建
post
,更容易的
获取
想要的
信息
最后简单封装了一下,懒得发版本 'use strict'; var co = require('co'); var getContent = require('./index'); co(function* () { let Cookie = 'your cookie here'; let url = 'http://www.zhihu.com/'; let content = yield getCont
python利用requests库模拟
post
请求
时json的使用教程
我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和
post
请求
,他们最大的区别在于安全性上: 1、GET是通过URL方式
请求
,可以直接看到,明文传输。 2、
POST
是通过
请求
header
请求
,可以开发者工具或者抓包可以看到,同样也是明文的。 3.GET
请求
会保存在浏览器历史纪录中,还可能会保存在Web的日志中。 两者用法上也有显著差异(援引自
知乎
): 1、GET用于从服务器端
获取
数据,包括静态资源(HTML|JS|CSS|Image等等)、动态数据展示(列表数据、详情数据等等)。 2、
POST
用于向服务器提交数据,比如增删改数据,提交一个表单新建一个用
python爬虫,爬取用户
信息
以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
zhihu_spider 此项目的功能是爬取用户
信息
以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。 使用方法 本地运行 爬虫程序依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令: celery -A zhihu.tools.async worker --loglevel=info docker部署 进入zhihu_spider后执行docker-compose up ,进入container后和本地运行方法相同,依次启动mongo、rabbitmq、异步任务、爬虫进程即可。docker采用的image可以参见我的另一个项目spider-docker
获取
。
请求
https://www.zhihu.com
获取
页面中的_xsrf数据,
知乎
开启了跨站
请求
伪造功能,所有的
POST
请求
都必须带上此参数。
UdemyDownloader:从 Udemy 下载视频和下载资源以供离线使用
Udemy 下载器 下载 Udemy 课程文件以供离线使用 用法:udemydl [-u 用户名] [-p 密码] -c course_link 笔记: 用户名和密码可以在 app.config 中配置,这样你就不需要每次都输入凭据。 一切工作原理的基本描述: 使用
POST
请求
登录
Udemy 成功后保存 Cookies 并将其用于所有未来
请求
转到 courseUrl 并搜索将在未来 API
请求
中使用的 courseId 使用 Udemy API
获取
课程
信息
获取
课程课程(包含有关讲座和资产的完整
信息
) 下载文件。 使用的技术: 使用的第三方库: 命令行解析器库 HtmlAgilityPack JSON.NET 下一个: 更好的 WPF 客户端 UI,用于选择要部分下载的文件/视频。 暴露更多事件以处理每个状态 可恢复下载功能
Web 开发
81,092
社区成员
341,717
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章