关于爬虫的问题

煎饼果子加仨蛋 2019-04-28 03:32:49
接到了一个需求,需要去抓取网站用户的手机号。目前的做法是通过模拟手机号进行登录,通过对方服务器返回来的状态来判断该手机号是否属于该网站。
现在遇到了一个问题是需要模拟的手机号数量实在是太多了,要从13,000,000,000~19,999,999,999,单进程跑每分钟能跑2000个,所以必然不能用这种方式。如果是多批次的去跑的话大概分成多少个合适呢,或者说有没有大佬做过类似的项目,有没有什么思路的建议。
...全文
838 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
云小凡 2019-05-12
  • 打赏
  • 举报
回复
何必呀、111,123,145,120这些都是没用的、至少在中国是这样、选择一些见得到的手机号。
螺丝刀2019 2019-05-09
  • 打赏
  • 举报
回复
楼主的思路,我是, 不明白啊。。。
繁华落幕、 2019-04-29
  • 打赏
  • 举报
回复
采用多进程运行 进程数量 = 服务器的cpu 1-4倍
horizon_zpy 2019-04-28
  • 打赏
  • 举报
回复
模拟手机号进行登录,通过对方服务器返回来的状态来判断该手机号是否属于该网站。
什么是模拟手机号登录?

21,886

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧