请教一个网络爬虫爬取网站链接的问题

百一不只 2014-08-21 01:32:40

如题：我想做一个爬虫，当输入网站域名之后，可以自动检索出该网站的所有链接，并爬取。
请问这个功能该怎么实现？

...全文

491 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

myhope88 2014-08-21

打赏
举报

正则去匹配就行了吧

踏平扶桑 2014-08-21

打赏
举报

根据网页写出来符合规则的正则表达式，然后下载（stream流方式）网页源码后用正则匹配出来链接，然后做下一步处理。具体需求你得根据自己的需要自己制定。

祥子爱游戏 2014-08-21

打赏
举报

HttpWebRequest WebClient FiidlerCore 正则表达式 HtmlAgilityPack听说很强大，还没用过需要一个字典（或者类似的数据容器）来放读取过的URI

datahandler2 2014-08-21

打赏
举报

你应该问的是HttpWebRequest 或WebClient的用法，以及如何匹配到a标签链接这类的正则用法。。。问的太笼统了。自己搜索下就有案例

_小黑_ 2014-08-21

打赏
举报

HtmlAgilityPack

threenewbee 2014-08-21

打赏
举报

递归，找到页面上的链接，再获取这些页面，并且重复这个过程，和遍历treeview差不多。不同的是，treeview是树，不存在回路，网页链接是图，你必须判断某些链接是否已经访问过，并且不再访问它们。

参考文章：文章转载自：易百教程 [http:/www.yiibai.com] 本文标题：Python 3开发网络爬虫本文地址：http://www.yiibai.com/python/python3-webbug-series1.html1、最简单的，用python抓取网页import urllib.request url="http://www.baidu.com" data =urllib

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬取的网址下面是详细的代码爬取结果和保存代码是经过大佬修改后的，没什么经验，第一次爬取网站表情包，欢迎批评指正。代码没毛病但是可能反爬的比较厉害，所以可能会出现一些错误。............

前提：我弟在搞微信群营销，使用了一个第三方微信机器人软件来群发“最新电影链接”，看着别人群里分享的各种短域名，自己却没有资源，于是来求助我，虽然对爬虫有点了解，但是从来没亲自做过爬虫，只能硬着头皮上了，于是就有了下面这个全过程。准备工作：先是理解一下他的需求，就是想要一个最新电影的链接，然后还要可以根据群成员的提问，比如有成员发送“爱情公寓”，那么就要通过机器人返回给“爱情公寓...

前言最近在看新出的电视剧“斗破苍穹”，可是一集电视剧的广告开头90s中间45s片尾15s，实在令人发指。之前有了解过，网上有很多免vip解析接口，于是本渣决定动手做一个可以去除广告的小网站，于是有一下采坑过程。采坑之路首先，这是最终在线预览。文章核心是爬取电影链接，然后和现有的会员解析接口拼接展示。 1.初版视频解析接口+电影链接=无广告电影。经过测试，预期功能实现。emmm，鼠标捡到...

什么是网络爬虫？网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。爬虫流程用户获取网络数据的方式：方式1：浏览器提交请求—>下载...

.NET社区

62,269

社区成员

668,981

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章