爬虫，网页不变的情况下翻页

cmd_ming 2020-05-29 03:30:21

最近搞个爬虫练手，登录获取都实现了
在最后一个网页内翻页时，怎么都获取不了下一页，求助，
post的数据大概如下
data_BGP = {
"__EVENTTARGET":'GridView1$ctl13$btnGo',
"__EVENTARGUMENT":' ',
"__VIEWSTATE":xxx,
"__VIEWSTATEGENERATOR":xxx,
"__EVENTVALIDATION":xxx,
"HiddenText":"xxx",
"HiddenID":"asd",
"NodeClick":"HiddenClick",
"GridView1$ctl13$txtNewPageIndex":'2'
}
如上，__VIEWSTATE，VIEWSTATEGENERATOR，EVENTVALIDATION
这三个数据每辞都要重新获取一下吗？翻页用的的__EVENTTARGET":'GridView1$ctl13$btnGo，为啥还是不行呢

...全文

474 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

tsfy2003 2020-05-29

打赏
举报

回复

应该上个链接

翻页爬取网页版前程无忧的职位相关信息，每一个大概有50条岗位信息，首页展示的只有职位名，公司名，工作地点的部分信息，薪资以及发布日期。对于找工作来说，我希望看到的还有：　　　　公司具体地址：如果离家太远，上下班会比较花时间。　　　　工作经验要求：判断自身经验是否达到要求　　　　同一个公司职位发布条数：判断是否为虚假招聘，有很多虚假招聘的公司，大量发布类似招聘信息。　　最后，我选择的爬取内容为为：岗位名，公司名，经验要求，公司详细地址，岗位薪资，招聘详细信息页面url。

常见的反爬机制及处理方式 1、Headers反爬虫：Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制：网站根据IP地址访问频率进行反爬,短时间内进制IP访问解决方案: 1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池 2、购买开放代理或私密代理IP 3、降低爬取的速度 3、User-Agent限制：类似于IP限制解决方案: 构造自己的User-Agent池,每次访问随机选择 5、对查询参数或Form表单数据认证(salt、sign) 解决方案: 找到JS文件,分析JS处理方法

NULL 博文链接：https://onestopweb.iteye.com/blog/2418305

实战：豆瓣电影 Top250 爬取秘籍 -XPath 和 URL 不动，轻松拿下 10 页数据的偷懒技巧

本文详细介绍了如何通过Python爬虫技术获取携程网站上北京地区的酒店数据。首先，作者发现直接访问携程酒店页面时，翻页后URL不变，导致无法获取所有数据。通过分析源代码，作者找到了不同页面对应的URL规律，并构造了所有页面的URL列表。接着，作者编写了发送请求的函数和提取数据的函数，分别用于获取网页内容和解析酒店名称、地址、评分、价格、推荐比例及点评人数等信息。最后，作者将爬取到的数据保存到Excel表格中，并设置了请求间隔以避免被服务器识别为爬虫。整个过程涵盖了URL构造、数据请求、数据解析和数据存储等关键步骤，为爬虫初学者提供了实用的参考。

37,743

社区成员

34,213

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章