基于Python的爬取今日头条文章及视频（代码+文档说明+数据库）下载

weixin_39821260 2023-12-16 22:30:26

今日头条爬虫技术说明 ========== 整体思路 -------- 1. 抓取今日头条app的数据包 2. 分析数据包，找出请求的数据（如文章列表，文章url等） 3. 根据文章url等信息，抓取文章内容 4. 若文章中包含视频，则取视频url，然后下载具体实现 ------ ### 一、抓包 ### 1. 工具：`Fiddler`、 `android`手机、`google浏览器` 2. 步骤：（1）本示例采用[Fiddler](http://fiddler2.com/ "Fiddler")来抓包，安装到电脑，我的电脑是win10 （2）具体配置及使用请见[http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html](http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html "百度经验") （3）打开今日头条app，开始抓包，抓取到的包如下：![](http://i.imgur.com/fC3y96p.png) （4）经分析得知左侧的json文件及为文章列表，如图![](http://i.imgur.com/I2Z8Iph.png) 如右侧第一个content所指的json文件，文件内容为![](http://i.imgur.com/lwaDLHP.png)此时手机上的信息为可得上面的结论正确 ### 二、分析 ### 1. 分析所抓到的文章列表数据包：大致分为两类，一类是有视频的文章，一类则是没有视频的文章。有视频的文章json内容里均有`video_id`这个key，如下图所示：![](http://i.imgur.com/T4hqaIc.png) 2. 没有视频的文章：json文件内容均包含`title`、 `abstract`、 `article_url`等信息，具体内容如下. -------- 该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.md文件（如有），仅供学习参考, 切勿用于商业用途。 -------- , 相关下载链接：https://download.csdn.net/download/2301_78627004/88588887?utm_source=bbsseo

...全文