请教一个网络爬虫爬取网站链接的问题

百一不只 2014-08-21 01:32:40
如题:我想做一个爬虫,当输入网站域名之后,可以自动检索出该网站的所有链接,并爬取。
请问这个功能该怎么实现?
...全文
447 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
myhope88 2014-08-21
  • 打赏
  • 举报
回复
正则去匹配就行了吧
踏平扶桑 2014-08-21
  • 打赏
  • 举报
回复
根据网页写出来符合规则的正则表达式,然后下载(stream流方式)网页源码后用正则匹配出来链接,然后做下一步处理。 具体需求你得根据自己的需要自己制定。
祥子爱游戏 2014-08-21
  • 打赏
  • 举报
回复
HttpWebRequest WebClient FiidlerCore 正则表达式 HtmlAgilityPack听说很强大,还没用过 需要一个字典(或者类似的数据容器)来放读取过的URI
datahandler2 2014-08-21
  • 打赏
  • 举报
回复
你应该问的是HttpWebRequest 或WebClient的用法,以及 如何匹配到a标签链接这类的正则用法。。。问的太笼统了。自己搜索下就有案例
_小黑_ 2014-08-21
  • 打赏
  • 举报
回复
HtmlAgilityPack
threenewbee 2014-08-21
  • 打赏
  • 举报
回复
递归,找到页面上的链接,再获取这些页面,并且重复这个过程,和遍历treeview差不多。 不同的是,treeview是树,不存在回路,网页链接是图,你必须判断某些链接是否已经访问过,并且不再访问它们。

62,243

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧