如何通过爬虫爬取各大新闻网站过去一段时间内的所有新闻？

qq_24395777 2018-06-14 05:11:20

最近在学习word2vec，想利用word2vec训练一个同义词模型，准备采用新闻数据做为语料库。

但在爬取新闻的过程中发现，现在主流的新闻网站基本都是采用滚动式（名字我瞎编的

）的新闻加载方式，也就是你鼠标滚轮一直向下拉就会不停的加载新的新闻出来。我通过这种方式找到的数据接口（例如网易的 http://3g.163.com/touch/jsonp/sy/recommend/10-10.html），只能爬到最近的1000篇新闻（对应于鼠标滚轮滚到后最后就不会再加载新的新闻出来了-_-||）。这个量对于训练一个同义词模型肯定是太少了。

所以想问问各位大大有没有什么方法可以爬到新闻网站过去一段时间的所有新闻啊？小弟在此先谢过了

...全文

3044 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

oyljerry 2018-06-14

打赏
举报

回复

只能再找别的新闻源网站。

基于循环神经网络长短期记忆网络与反向传播算法构建的股票价格预测系统_深度学习时序分析模型RNN_LSTM_BP神经网络_金融时间序列数据处理与特征工程_股票市场历史数据爬取清洗_.zip

如何通过爬虫爬取各大新闻网站过去一段时间内的所有新闻？想利用word2vec训练一个同义词模型，准备采用新闻数据做为语料库。但在爬取新闻的过程中发现，现在主流的新闻网站基本都是采用滚动式的新闻加载方式，也就是你鼠标滚轮一直向下拉就会不停的加载新的新闻出来。通过这种方式找到的数据接口（例如网易的 http://3g.163.com/touch/jsonp/sy/recommend/10-10.html），只能爬到最近的1000篇新闻对应于鼠标滚轮滚到后最后就不会再加载新的新闻出来了，量太少了。 ...

目标网站：湖南法治报爬取目的：为了获取某一地区更全面的在红网已发布的宣传新闻稿，同时也让自己的工作更便捷环境：Pycharm2021，Python3.10，安装的包：requests，csv，bs4v1.0 版本特点：获取指定页数的新闻数据，筛选出含有想要查找的的关键词的新闻内容，并存储起来。

新浪新闻搜索的实现技术与百度又有些不同，刚开始我还只能抓取第一页的内容，不过有了之前的知识积累，再加上不断的从网上搜索相关的资料，总算解决了问题，实现了将新浪新闻搜索到的所有新闻的标题、链接、内容、来源、时间都抓取下来的目标。但，点第2页、第3页…接着我又对页面下方的其它页的跳转按钮进行了分析，一看是有规律的，但我尝试了将其中的几个参数添加到浏览器的网址栏中点更新，没有获得期待的效果。我在网上搜索了一通，虽然找到了一些资料，但要么不能解决我遇到的问题，要么就是几年前的资料，看了一两遍，一时没看懂。

Google新闻是Google推出的一项新闻聚合服务。它收集、整理和展示来自全球主要新闻网站的最新新闻报道。用户可以按关键词、主题、地区、发布来源等进行筛选，Google新闻算法会根据用户的兴趣和浏览习惯推荐个性化的新闻内容。

37,741

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章