证券网referer反爬及应对2

isscollege 2023-01-13 12:00:06

课时名称	课时知识点
证券网referer反爬及应对2	证券网referer反爬及应对2

...全文

77 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Python爬虫、反爬与应对软通动力教育集团简称软通大学，依托软通动力在技...

网站为了保护自己的数据不被爬取，都会设置许多反爬措施。其中较为简单的就是检测访问请求头部，如果检测出不是合法的请求头，服务器就不返回数据。请求头headers中常用于设置反爬的参数有User Agent、referer和cookies。在做爬虫时，遇到了一些相关案例，将案例和相关应对措施发出来与大家分享下。1、User Agent反爬User Agent是标识请求的浏览器身份的，网站常用这个参数来...

很多的爬虫请求头是默认的一些很明显的爬虫头为‘python-requests/2.18.4’，诸如此，当运维人员发现携带有这类 headers 的数据包时，直接拒绝访问，返回 403 错误。很多网站的反爬虫机制都会设置了访问间隔时间，一个 IP 如果短时间内超过了指定的次数就会被禁止，这时就需要将访问的时间间隔设置的长一点，比如每抓取一个页面休眠一个随机时间，这就称为修改爬虫的间隔时间。对于检测 Headers 的反爬虫，在爬虫中修改或者添加 Headers 就能很好地绕过，这是最常用的应对反爬虫的措施。

用这套框架几乎能绕过大多数的反爬虫，因为它不是在伪装成浏览器来获取数据（上述的通过添加 Headers一定程度上就是为了伪装成浏览器），它本身就是浏览器，phantomJS就是一个没有界面的浏览器，只是操控这个浏览器的不是人。如果能够找到ajax请求，也能分析出具体的参数和响应的具体含义，我们就能采用上面的方法，直接利用requests或者urllib2模拟ajax请求，对响应的json进行分析得到需要的数据。这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。

李秀忠的课程社区_NO_2

1

社区成员

119

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章