Python抓取网站下所有page的连接

DannyHau 2016-01-25 04:50:46
Python获取网站下所有page的URL,如何实现呢?目前没有任何思路吖!
...全文
317 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
hldh214 2016-02-01
  • 打赏
  • 举报
回复
引用 9 楼 nice_fish 的回复:
[quote=引用 8 楼 hldh214 的回复:] 大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧
现在的进度是94%,还没有完全兼容[/quote] 刚去看了下, 的确是没兼容, 见笑了
  • 打赏
  • 举报
回复
引用 8 楼 hldh214 的回复:
大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧
现在的进度是94%,还没有完全兼容
hldh214 2016-01-29
  • 打赏
  • 举报
回复
大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧
wm_ni 2016-01-28
  • 打赏
  • 举报
回复
获取页面代码,然后用BeautifulSoup解析A链接,对A链接下各个页面代码再进行获取,再解析,一般深入5~10层差不多了,否则到时候页面互相链接的话就陷入死循环了。
coderCold 2016-01-28
  • 打赏
  • 举报
回复
引用 5 楼 mvs2008 的回复:
[quote=引用 4 楼 coderCold 的回复:] 抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了
这样可能会漏掉一些page吧[/quote] 我觉得这样可以拿到大部分网站公开的网页了,如果实在需要后台那些比较隐秘的网页,可以hack=.=
DannyHau 2016-01-28
  • 打赏
  • 举报
回复
引用 4 楼 coderCold 的回复:
抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了
这样可能会漏掉一些page吧
DannyHau 2016-01-27
  • 打赏
  • 举报
回复
引用 楼主 mvs2008 的回复:
Python获取网站下所有page的URL,如何实现呢?目前没有任何思路吖!
某个网站下所有的page url额,意思就是遍历网站下所有page,然后获得该URL,不是某个页面的URL。 例如:csdn下那么多page的url。
DannyHau 2016-01-27
  • 打赏
  • 举报
回复
引用 1 楼 nice_fish 的回复:
url ? 你抓A标签不就好了
某个网站下所有的page url额,意思就是遍历网站下所有page,然后获得该URL,不是某个页面的URL。 例如:csdn下那么多page的url。
coderCold 2016-01-27
  • 打赏
  • 举报
回复
抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了
  • 打赏
  • 举报
回复
url ? 你抓A标签不就好了

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧