爬虫策略

海燕技术栈
全栈领域优质创作者
博客专家认证
2019-11-28 10:23:36
之前一直使用pandownload搜索百度网盘的资源,但是pandownload每天个人用户的搜索功能是有使用次数限制的,不能无限次使用。所以也想着自己写一个备份。就我分析而言,pandownload应该也是利用爬虫+在它那里登录的用户分享的东西作为搜索的基础内容。所以我想问下,百度网盘的爬虫该利用什么策略?下面是我能想到的所有方案,不过意义不大。
第一种方法:暴力枚举后面的随机值。(位数太长,没有事件意义)
第二种方法:利用订阅别人的账号,定期去爬取别人未设置密码的资源。这个只能是小部分内容的来源,因为为设密码的太少了。
第三种方法:利用谷歌高级语法:site:pan.baidu.com intext:请输入提取码。这种方法获取不到资源的摘要,意义不大。

各位站友,有其他比较好的解决方案吗?
...全文
68 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧