爬虫策略
海燕技术栈 全栈领域优质创作者 博客专家认证 2019-11-28 10:23:36 之前一直使用pandownload搜索百度网盘的资源,但是pandownload每天个人用户的搜索功能是有使用次数限制的,不能无限次使用。所以也想着自己写一个备份。就我分析而言,pandownload应该也是利用爬虫+在它那里登录的用户分享的东西作为搜索的基础内容。所以我想问下,百度网盘的爬虫该利用什么策略?下面是我能想到的所有方案,不过意义不大。
第一种方法:暴力枚举后面的随机值。(位数太长,没有事件意义)
第二种方法:利用订阅别人的账号,定期去爬取别人未设置密码的资源。这个只能是小部分内容的来源,因为为设密码的太少了。
第三种方法:利用谷歌高级语法:site:pan.baidu.com intext:请输入提取码。这种方法获取不到资源的摘要,意义不大。
各位站友,有其他比较好的解决方案吗?