求python大神指点--python爬虫问题

瘦死的黑骆驼 2019-07-12 05:39:33
问题描述起来很简单:目前只知道一个域名如www.aaaa.com,该域名上部署了一个网站,如何能将该域名下所有的页面都爬出来,不知道能不能实现
...全文
140 5 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
瘦死的黑骆驼 2019-07-12
  • 打赏
  • 举报
回复
引用 3 楼 流泪熊猫头 的回复:
使用相关工具进行网站目录扫描,得到扫描结果就可以用了
扫描网站不行的吧,这是别人的网站,没有权限啊,只能http请求然后下载啊,完全不知道URL怎么扫描呢
瘦死的黑骆驼 2019-07-12
  • 打赏
  • 举报
回复
引用 3 楼 流泪熊猫头 的回复:
使用相关工具进行网站目录扫描,得到扫描结果就可以用了
使用什么工具啊,求推荐个,谢谢
流泪熊猫头 2019-07-12
  • 打赏
  • 举报
回复
使用相关工具进行网站目录扫描,得到扫描结果就可以用了
瘦死的黑骆驼 2019-07-12
  • 打赏
  • 举报
回复
引用 1 楼 我家胖鱼爱吃肉 的回复:
肯定是可以的。 但是有个问题,需要查看该域名下页面的具体情况,我之前遇到过一个特别乱的网站,每天都会生成新的界面,且规律不一。 如果想爬取一个域名下的所有界面,直接采用遍历,将所有的跳转界面都拉下来就可以了。
问题是我根本不知道这个域名下有哪些页面,完全不知道URL,我要怎么匹配到这些页面呢
海上的程序猿 2019-07-12
  • 打赏
  • 举报
回复
肯定是可以的。 但是有个问题,需要查看该域名下页面的具体情况,我之前遇到过一个特别乱的网站,每天都会生成新的界面,且规律不一。 如果想爬取一个域名下的所有界面,直接采用遍历,将所有的跳转界面都拉下来就可以了。

81,122

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧