如何通过post请求获取知乎的登录信息

windofme1109 2018-04-13 10:07:54

新手一枚，最近在学习java爬虫，用的是HttpClient开发包，现在需要模拟登录知乎，我查阅了不少文章，都需要分析post请求，就是看看在登录知乎的过程中向服务器发了哪些参数，但是我用的火狐浏览器（最新版），通过按f12查看这个过程，但是根本没有找到我需要的登录参数，不知道这是这么回事，恳请大神指导。如何查看网站登录过程中浏览器传输的参数。

...全文

844 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

windofme1109 2018-04-14

打赏
举报

回复

引用 1 楼 E_mKs 的回复:

用Fidder拦截看看吧

主要是查看哪些参数，这个软件不太会用

叫我阿喵 2018-04-14

打赏
举报

回复

用Fidder拦截看看吧

Python 模拟爬虫抓取知乎用户信息以及人际拓扑关系，使用scrapy爬虫框架，数据存储使用mongo数据库。　　本地运行请注意：爬虫依赖mongo和rabbitmq，因此这两个服务必须正常运行和配置。为了加快下载效率，图片下载是异步任务，因此在启动爬虫进程执行需要启动异步worker，启动方式是进入zhihu_spider/zhihu目录后执行下面命令: 　　celery -A zhihu.tools.async worker --loglevel=info 　　爬虫项目部署：　　进入zhihu_spider后执行```docker-compose up``` ，进入container后和本地运行方法相同，依次启动mongo、rabbitmq、异步任务、爬虫进程即可。　　其它需要说明的问题：　　爬虫框架从start\_requests开始执行，此部分会提交知乎主页的访问请求给引擎，并设置回调函数为post_login. 　　post\_login解析主页获取\_xsrf保存为成员变量中，并提交登陆的POST请求，设置回调函数为after\_login. 　　after\_login拿到登陆后的cookie，提交一个start\_url的GET请求给爬虫引擎，设置回调函数parse\_people. 　　parse\_people解析个人主页，一次提交关注人和粉丝列表页面到爬虫引擎，回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。　　parse\_follow会解析用户列表，同时把动态的人员列表POST请求发送只引擎，回调函数是parse\_post\_follow，把解析好的用户主页链接请求也发送到引擎，人员关系写入mongo。　　parse\_post\_follow单纯解析用户列表，提交用户主页请求至引擎。

ZhihuSpider 本来想用nodejs对知乎进行模拟登陆，抓取信息通过request post发送用户名和密码的方式，可以进行登陆，但是需要输入验证码，用程序来识别感觉太麻烦。最后想到用cookie的方式来解决就很简单了。打开Chrome控制台，查看知乎首页的请求，就能看到Cookie，试了几下还真的可以。按照这个方法，可以轻松构建post，更容易的获取想要的信息最后简单封装了一下，懒得发版本 'use strict'; var co = require('co'); var getContent = require('./index'); co(function* () { let Cookie = 'your cookie here'; let url = 'http://www.zhihu.com/'; let content = yield getCont

我们都见识过requests库在静态网页的爬取上展现的威力，我们日常见得最多的为get和post请求，他们最大的区别在于安全性上： 1、GET是通过URL方式请求，可以直接看到，明文传输。 2、POST是通过请求header请求，可以开发者工具或者抓包可以看到，同样也是明文的。 3.GET请求会保存在浏览器历史纪录中，还可能会保存在Web的日志中。　　两者用法上也有显著差异（援引自知乎）： 1、GET用于从服务器端获取数据，包括静态资源(HTML|JS|CSS|Image等等)、动态数据展示(列表数据、详情数据等等)。 2、POST用于向服务器提交数据，比如增删改数据，提交一个表单新建一个用

zhihu_spider 此项目的功能是爬取用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo，下载这些数据感觉也没什么用，就当为大家学习scrapy提供一个例子吧。使用方法本地运行爬虫程序依赖mongo和rabbitmq，因此这两个服务必须正常运行和配置。为了加快下载效率，图片下载是异步任务，因此在启动爬虫进程执行需要启动异步worker，启动方式是进入zhihu_spider/zhihu目录后执行下面命令: celery -A zhihu.tools.async worker --loglevel=info docker部署进入zhihu_spider后执行docker-compose up ，进入container后和本地运行方法相同，依次启动mongo、rabbitmq、异步任务、爬虫进程即可。docker采用的image可以参见我的另一个项目spider-docker获取。请求https://www.zhihu.com获取页面中的_xsrf数据，知乎开启了跨站请求伪造功能，所有的POST请求都必须带上此参数。

Udemy 下载器下载 Udemy 课程文件以供离线使用用法：udemydl [-u 用户名] [-p 密码] -c course_link 笔记：用户名和密码可以在 app.config 中配置，这样你就不需要每次都输入凭据。一切工作原理的基本描述：使用 POST 请求登录 Udemy 成功后保存 Cookies 并将其用于所有未来请求转到 courseUrl 并搜索将在未来 API 请求中使用的 courseId 使用 Udemy API 获取课程信息获取课程课程（包含有关讲座和资产的完整信息）下载文件。使用的技术：使用的第三方库：命令行解析器库 HtmlAgilityPack JSON.NET 下一个：更好的 WPF 客户端 UI，用于选择要部分下载的文件/视频。暴露更多事件以处理每个状态可恢复下载功能

81,092

社区成员

341,717

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章