在爬取数据时得到的网页无法获取日期信息

杨雷波 2021-05-10 09:48:05

如题，在爬取公司产品数据时，选择好时间和其他限制条件后，在得到的页面network中，没有找到时间参数，怎么确定不同日期之间的区别

...全文

84 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

①马蜂窝景点的评论只能看到五页内容，因此按评论的主题对其进行爬取（虽然每个主题也只能看到五页，但爬取的结果总归是比五页多很多），爬取字段有景点评分、评论、评论日期。 ②以马蜂窝某景点为例，其评论高达3000多条，但这3000多条并非是完全向用户展示的，向用户展示的只有5页，数了一下每页15条评论，也就是75条评论，有点太少了吧！ ③因此想了个办法尽可能多爬取一些评论，根据我对爬虫爬取数据法律法规的相关了解，爬取看得到的数据是合法的，而在评论最开始的这个地方有对评论的分类，当然每个分类主题也是最多能看到5页内容，但是肯定会比我们被动的只爬取5页多很多内容，因此我们选择按主题分类去爬取评论。

几年的长江中游水文数据信息，分为多个时段，有站点信息，水位信息，流量信息，日期信息等一系列的信息的

python 基金数据爬取源码可运行

获取全量基金信息(基金代码、基金名、类型...) 获取基金指定日期内单位净值、累计净值、日增长率等获取基金指定日期内单位净值、累计净值、日增长率等

该课题要求爬取目标网站：https://www.51job.com中，输入关键字后工作岗位的基本信息如岗位名字、岗位薪资、base地、福利、岗位要求、岗位需求公司、发布日期、公司所属行业、公司性质、招聘岗位简介、公司简介等，爬取过程中需要注意网页反爬机制。（1）编写代码，模仿浏览器人为操作，通过关键字爬取人才网的职位信息；（2）将爬取到的网页信息进行信息预处理、清洗等。（3）将处理完的数据存储在Mysql数据库中，数据库名为job，或者数据存储在名为job的Excel表格或名为job的记事本文件中。（4）用数据可视化处理数据，生成岗位在地图上面的热力图、热门地区岗位薪资待遇柱状图、热门地区岗位招聘个数折线图以及以招聘地区出现次数的云图，从而反馈出岗位的热门地区以及薪资待遇。（5）设计对抓取数据的备份还原机制，确保数据安全。

其他开发语言

3,423

社区成员

15,635

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章