Python抓取网站下所有page的连接

DannyHau 2016-01-25 04:50:46

Python获取网站下所有page的URL，如何实现呢？目前没有任何思路吖！

...全文

317 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

hldh214 2016-02-01

打赏
举报

引用 9 楼 nice_fish 的回复:

[quote=引用 8 楼 hldh214 的回复:] 大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧

现在的进度是94%，还没有完全兼容[/quote] 刚去看了下, 的确是没兼容, 见笑了

人傻且呆但不萌 2016-01-31

打赏
举报

引用 8 楼 hldh214 的回复:

大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧

现在的进度是94%，还没有完全兼容

hldh214 2016-01-29

打赏
举报

大项目试试scarpy, 兼容Python3 小程序就使使lxml配合requests吧

wm_ni 2016-01-28

打赏
举报

获取页面代码，然后用BeautifulSoup解析A链接，对A链接下各个页面代码再进行获取，再解析，一般深入5～10层差不多了，否则到时候页面互相链接的话就陷入死循环了。

coderCold 2016-01-28

打赏
举报

引用 5 楼 mvs2008 的回复:

[quote=引用 4 楼 coderCold 的回复:] 抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了

这样可能会漏掉一些page吧[/quote] 我觉得这样可以拿到大部分网站公开的网页了,如果实在需要后台那些比较隐秘的网页,可以hack=.=

DannyHau 2016-01-28

打赏
举报

引用 4 楼 coderCold 的回复:

抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了

这样可能会漏掉一些page吧

DannyHau 2016-01-27

打赏
举报

引用楼主 mvs2008 的回复:

Python获取网站下所有page的URL，如何实现呢？目前没有任何思路吖！

某个网站下所有的page url额，意思就是遍历网站下所有page，然后获得该URL，不是某个页面的URL。例如：csdn下那么多page的url。

DannyHau 2016-01-27

打赏
举报

引用 1 楼 nice_fish 的回复:

url ? 你抓A标签不就好了

某个网站下所有的page url额，意思就是遍历网站下所有page，然后获得该URL，不是某个页面的URL。例如：csdn下那么多page的url。

coderCold 2016-01-27

打赏
举报

抓到首页,然后开始拿到里面的所有<a>链接,访问这些链接页面,又从这些新访问的页面获得<a>继续,过程加上判断,学学爬虫就ok了

人傻且呆但不萌 2016-01-26

打赏
举报

url ? 你抓A标签不就好了

学习利用抓取股票信息

文章目录一、爬取代理IP网站中所有IP1. 爬取第一个网站中所有的ip地址2. 爬取第二个网站中所有的ip地址3. 爬取第三个网站中所有的ip地址3.1 通过图片url获取图片内容,并且识别图片中数字3.2 爬取数据二、检测可用代理IP1. 检测原理2. 检测代码一、爬取代理IP网站中所有IP 目前寻找到3个成功率比较高的代理IP网站 https://hidemy.name/cn/proxy-list/?type=s#list (可能需要v-p-n) http://www.xiladaili.c

— Python网页抓取教程:循序渐进 — 抓取网页入门其实挺简单的。在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页，这一期给大家介绍一种更容易，也是使用最广泛的一种抓取方法，那就是Python。说起Python，大家应该并不陌生，它是目前入门最简单的一种方法了，因为它是一种面向对象的语言。Python的类和对象比任何其他语言都更容易使用。此外，Python存在许多库，因而在Python中构建用于网页抓取的工具轻而易举。在这篇Python网络抓取教程中，我们将分步骤讲解如何利..

python 抓取网页链接Prerequisite: 先决条件： Urllib3: It is a powerful, sanity-friendly HTTP client for Python with having many features like thread safety, client-side SSL/TSL verification, connection pooling,...

您在抓取动态网页内容时是否得到了糟糕的结果？不仅仅是你。对于标准抓取工具来说，爬网动态数据是一项具有挑战性的任务（至少可以说）。这是因为当发出HTTP请求时，响应程序的某些部分JavaScript在后台运行，而抓取动态网站需要在浏览器中呈现整个页面并提取目标信息。

脚本语言

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章