• 全部
  • .NET Framework
  • ASP
  • Web Services
  • .NET互联网桌面应用
  • VB
  • 图表区
  • 分析与设计
  • 组件/控件开发
  • AppLauncher
  • 问答

请教一个网络爬虫爬取网站链接的问题

百一不只 2014-08-21 01:32:40
如题:我想做一个爬虫,当输入网站域名之后,可以自动检索出该网站的所有链接,并爬取。
请问这个功能该怎么实现?
...全文
276 点赞 收藏 6
写回复
6 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
myhope88 2014-08-21
正则去匹配就行了吧
回复
踏平扶桑 2014-08-21
根据网页写出来符合规则的正则表达式,然后下载(stream流方式)网页源码后用正则匹配出来链接,然后做下一步处理。 具体需求你得根据自己的需要自己制定。
回复
祥子爱游戏 2014-08-21
HttpWebRequest WebClient FiidlerCore 正则表达式 HtmlAgilityPack听说很强大,还没用过 需要一个字典(或者类似的数据容器)来放读取过的URI
回复
tiancaolin 2014-08-21
你应该问的是HttpWebRequest 或WebClient的用法,以及 如何匹配到a标签链接这类的正则用法。。。问的太笼统了。自己搜索下就有案例
回复
_小黑_ 2014-08-21
HtmlAgilityPack
回复
threenewbee 2014-08-21
递归,找到页面上的链接,再获取这些页面,并且重复这个过程,和遍历treeview差不多。 不同的是,treeview是树,不存在回路,网页链接是图,你必须判断某些链接是否已经访问过,并且不再访问它们。
回复
相关推荐
发帖
.NET技术社区
创建于2007-09-28

5.8w+

社区成员

.NET技术交流专区
申请成为版主
帖子事件
创建了帖子
2014-08-21 01:32
社区公告
暂无公告