今日头条爬虫技术说明
==========
整体思路
--------
1. 抓取今日头条app的数据包
2. 分析数据包,找出请求的数据(如文章列表,文章url等)
3. 根据文章url等信息,抓取文章内容
4. 若文章中包含视频,则取视频url,然后下载
具体实现
------
### 一、抓包 ###
1. 工具:`Fiddler`、 `android`手机、`google浏览器`
2. 步骤:
(1)本示例采用[Fiddler](http://fiddler2.com/ "Fiddler")来抓包,安装到电脑,我的电脑是win10
(2)具体配置及使用请见[http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html](http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html "百度经验")
(3)打开今日头条app,开始抓包,抓取到的包如下:
(4)经分析得知左侧的json文件及为文章列表,如图
如右侧第一个content所指的json文件,文件内容为此时手机上的信息为
可得上面的结论正确
### 二、分析 ###
1. 分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章。
有视频的文章json内容里均有`video_id`这个key,如下图所示:
2. 没有视频的文章:json文件内容均包含`title`、 `abstract`、 `article_url`等信息,具体内容如下.
--------
该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用!
1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。
3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。
下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
--------
, 相关下载链接:
https://download.csdn.net/download/2301_78627004/88588887?utm_source=bbsseo