爬虫策略

海燕技术栈

全栈领域优质创作者

博客专家认证

2019-11-28 10:23:36

之前一直使用pandownload搜索百度网盘的资源，但是pandownload每天个人用户的搜索功能是有使用次数限制的，不能无限次使用。所以也想着自己写一个备份。就我分析而言，pandownload应该也是利用爬虫+在它那里登录的用户分享的东西作为搜索的基础内容。所以我想问下，百度网盘的爬虫该利用什么策略？下面是我能想到的所有方案，不过意义不大。
第一种方法：暴力枚举后面的随机值。（位数太长，没有事件意义）
第二种方法：利用订阅别人的账号，定期去爬取别人未设置密码的资源。这个只能是小部分内容的来源，因为为设密码的太少了。
第三种方法：利用谷歌高级语法：site:pan.baidu.com intext:请输入提取码。这种方法获取不到资源的摘要，意义不大。

各位站友，有其他比较好的解决方案吗？

...全文

68 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

反爬虫策略和手段正所谓魔高一尺道高一丈 robots协议反爬虫策略反反爬虫策略

网站做了很多反爬虫工作，爬起来有些艰难，本文详细介绍了python解决网站的反爬虫策略，有需要的小伙伴可以参考下。

网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站下的特定信息，如招聘信息，租房信息等。本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题：为何使用广度优先的爬行策略，以及如何实现广度优先爬行；为何要使用多线程，以及如何实现多线程；系统实现过程中的数据存储；网页信息解析等。通过实现这一爬虫程序，可以搜集某一站点的URLs，并将搜集到的URLs存入数据库。

文章同步：http://blog.csdn.net/wgyscsf

一般网站从三个方面反爬虫：请求网站访问时的请求头Headers，用户行为，目标网站的目录和数据加载方式。前两个方面反爬虫策略中最为常见的，而第三个则是应用ajax（异步加载）的方式加载页面目录或者内容，增大爬虫在对目标网站形成访问之后获取数据的难度。但是仅仅检验一下请求头或者做几个ip限制显然无法达到网站运营者对anti-spam的要求，所以更进一步的反制措施也不少。最主要的大概有：Cookie...

81,092

社区成员

341,716

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章