蜘蛛抓取的初级问题(高手进、在线等)

bzhd222 2010-06-22 02:30:38
公司要做一个winform程序,其中一块就是 要输入一个关键字,然后把网上所有跟这个关键字有关的网页内容都抓取出来,并存储到数据库里面。
LD说是要用 蜘蛛抓取,我上百度查了查,看的很迷茫。希望各位高手给个解决的思路,给个介绍讲解的链接也行,最好有个范例可以参考。在线急等!!!!
帮顶给分。。。。。。。
...全文
234 27 打赏 收藏 转发到动态 举报
写回复
用AI写文章
27 条回复
切换为时间正序
请发表友善的回复…
发表回复
bzhd222 2010-07-05
  • 打赏
  • 举报
回复
呵呵 本人回来结账了。。。
ioriliao1 2010-06-24
  • 打赏
  • 举报
回复
我以前也遇到了同样的问题,也遇到了差不多同样的回复。到目前为止我也没有找到正确的答案。
我估计是这样的,先自己构造出所有可能的网址,比如网址是由http://www.xxx.xxx这样形式的。
然后访问这样的网站就可以对这个页面的内容进行分析了,如果与你的构造的逻辑是一样的那么就
保存这个网址和相关的内容到数据库。之后别人就搜索就是对你的数据库进行搜索的。我之后以这样
估计是因为如果其实现原理不是这样的就没有必要把数据保存到数据库中了,直接实时搜索就可以了。
huzi110 2010-06-24
  • 打赏
  • 举报
回复
学习~
lyboyc 2010-06-24
  • 打赏
  • 举报
回复
直接从百度谷歌查,抓他们的网页比自己整合搜索引擎效率高而且准确
kialison 2010-06-24
  • 打赏
  • 举报
回复
用WebBrowser url写 http://www.baidu.com/s?wd=关键字 然后抓取 WebBrowser 返回的信息,保存到数据库
hbdsz 2010-06-24
  • 打赏
  • 举报
回复
呵呵,我刚好做过,lucence做的搜索引擎
ieexpo.net
pccc1984 2010-06-24
  • 打赏
  • 举报
回复
估计只能根据爬一些搜索引擎的搜索结果存起来了。因为你要爬整个互联网几乎是不可能的
bzhd222 2010-06-24
  • 打赏
  • 举报
回复
期待牛人进来解释。。。。。。
jianuMan 2010-06-23
  • 打赏
  • 举报
回复
webclient

downstring 吧网页读出来放到字符串里面

然后indexOf(“关键字”)

判断是否有关键字 有的话存入数据库

以此网页为基础 便利链接
liuyang509 2010-06-23
  • 打赏
  • 举报
回复
学习 帮顶
  • 打赏
  • 举报
回复
看了一下楼上提供的连接,我的理解是:蜘蛛就是通过超连接下载网页,然后对内容进行分析。如何找到超连接,还不明白,对内容进行分析这块,我想大概可以用全文搜索工具如Lucene.这两天用了下Lucene.Net,感觉搜索速度还是挺快的。
bzhd222 2010-06-23
  • 打赏
  • 举报
回复
顶啊顶。。。。
bios8086 2010-06-23
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 kunlunlang 的回复:]

。。。蜘蛛就是指搜索引擎里检索网络信息的程序。。

其实GOOGLE已经用蜘蛛爬行好了,你直接从GOOGLE和百度下载就行了,不必要自己写什么东西的。。
[/Quote]

用httpwebclient直接调用GOOGLE 不就行了!多方便!
lijavasy 2010-06-23
  • 打赏
  • 举报
回复
[Quote=引用 17 楼 eloveo 的回复:]
要做一个搜索引擎我相信我们现在都没有这个能力.
但是你可以借用别人的,百度、googel等
你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。

把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。
[/Quote]
这个是一个办法!
penglu1986 2010-06-23
  • 打赏
  • 举报
回复
路过顶一下
eloveo 2010-06-23
  • 打赏
  • 举报
回复
要做一个搜索引擎我相信我们现在都没有这个能力.
但是你可以借用别人的,百度、googel等
你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。

把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。
xy325432 2010-06-23
  • 打赏
  • 举报
回复
学习,帮顶。。
bzhd222 2010-06-23
  • 打赏
  • 举报
回复
顶啊顶。。。。。。
accplcj 2010-06-22
  • 打赏
  • 举报
回复
<a href="www.baidu.com">蜘蛛</a>
hb1122 2010-06-22
  • 打赏
  • 举报
回复
来毛线,你才50分!
路过,占楼!
加载更多回复(7)

110,536

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧