社区
C#
帖子详情
蜘蛛抓取的初级问题(高手进、在线等)
bzhd222
2010-06-22 02:30:38
公司要做一个winform程序,其中一块就是 要输入一个关键字,然后把网上所有跟这个关键字有关的网页内容都抓取出来,并存储到数据库里面。
LD说是要用 蜘蛛抓取,我上百度查了查,看的很迷茫。希望各位高手给个解决的思路,给个介绍讲解的链接也行,最好有个范例可以参考。在线急等!!!!
帮顶给分。。。。。。。
...全文
234
27
打赏
收藏
蜘蛛抓取的初级问题(高手进、在线等)
公司要做一个winform程序,其中一块就是 要输入一个关键字,然后把网上所有跟这个关键字有关的网页内容都抓取出来,并存储到数据库里面。 LD说是要用 蜘蛛抓取,我上百度查了查,看的很迷茫。希望各位高手给个解决的思路,给个介绍讲解的链接也行,最好有个范例可以参考。在线急等!!!! 帮顶给分。。。。。。。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
27 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
bzhd222
2010-07-05
打赏
举报
回复
呵呵 本人回来结账了。。。
ioriliao1
2010-06-24
打赏
举报
回复
我以前也遇到了同样的问题,也遇到了差不多同样的回复。到目前为止我也没有找到正确的答案。
我估计是这样的,先自己构造出所有可能的网址,比如网址是由http://www.xxx.xxx这样形式的。
然后访问这样的网站就可以对这个页面的内容进行分析了,如果与你的构造的逻辑是一样的那么就
保存这个网址和相关的内容到数据库。之后别人就搜索就是对你的数据库进行搜索的。我之后以这样
估计是因为如果其实现原理不是这样的就没有必要把数据保存到数据库中了,直接实时搜索就可以了。
huzi110
2010-06-24
打赏
举报
回复
学习~
lyboyc
2010-06-24
打赏
举报
回复
直接从百度谷歌查,抓他们的网页比自己整合搜索引擎效率高而且准确
kialison
2010-06-24
打赏
举报
回复
用WebBrowser url写 http://www.baidu.com/s?wd=关键字 然后抓取 WebBrowser 返回的信息,保存到数据库
hbdsz
2010-06-24
打赏
举报
回复
呵呵,我刚好做过,lucence做的搜索引擎
ieexpo.net
pccc1984
2010-06-24
打赏
举报
回复
估计只能根据爬一些搜索引擎的搜索结果存起来了。因为你要爬整个互联网几乎是不可能的
bzhd222
2010-06-24
打赏
举报
回复
期待牛人进来解释。。。。。。
jianuMan
2010-06-23
打赏
举报
回复
webclient
downstring 吧网页读出来放到字符串里面
然后indexOf(“关键字”)
判断是否有关键字 有的话存入数据库
以此网页为基础 便利链接
liuyang509
2010-06-23
打赏
举报
回复
学习 帮顶
使我做你和平之子
2010-06-23
打赏
举报
回复
看了一下楼上提供的连接,我的理解是:蜘蛛就是通过超连接下载网页,然后对内容进行分析。如何找到超连接,还不明白,对内容进行分析这块,我想大概可以用全文搜索工具如Lucene.这两天用了下Lucene.Net,感觉搜索速度还是挺快的。
bzhd222
2010-06-23
打赏
举报
回复
顶啊顶。。。。
bios8086
2010-06-23
打赏
举报
回复
[Quote=引用 2 楼 kunlunlang 的回复:]
。。。蜘蛛就是指搜索引擎里检索网络信息的程序。。
其实GOOGLE已经用蜘蛛爬行好了,你直接从GOOGLE和百度下载就行了,不必要自己写什么东西的。。
[/Quote]
用httpwebclient直接调用GOOGLE 不就行了!多方便!
lijavasy
2010-06-23
打赏
举报
回复
[Quote=引用 17 楼 eloveo 的回复:]
要做一个搜索引擎我相信我们现在都没有这个能力.
但是你可以借用别人的,百度、googel等
你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。
把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。
[/Quote]
这个是一个办法!
penglu1986
2010-06-23
打赏
举报
回复
路过顶一下
eloveo
2010-06-23
打赏
举报
回复
要做一个搜索引擎我相信我们现在都没有这个能力.
但是你可以借用别人的,百度、googel等
你用winform 比如打开百度网业 然后输入相关的关键字到百度,提交。
把百度相出来的所有网站一个一个的遍历去把网址得到,至于怎么得到你想想办法吧。
xy325432
2010-06-23
打赏
举报
回复
学习,帮顶。。
bzhd222
2010-06-23
打赏
举报
回复
顶啊顶。。。。。。
accplcj
2010-06-22
打赏
举报
回复
<a href="www.baidu.com">蜘蛛</a>
hb1122
2010-06-22
打赏
举报
回复
来毛线,你才50分!
路过,占楼!
加载更多回复(7)
代理信息[Python] 实现网络爬虫
这几周一直在学习代理信息之类的
问题
,上午正好有机会和大家分享一下. 1、什么是网络爬虫 网络爬虫是现代搜索引擎技术的一种非常核心、基础的技术,网络就好比是一张
蜘蛛
网,网络爬虫就像是一只
蜘蛛
,在网络间...
Nginx反爬虫: 禁止某些User Agent
抓取
网站
备注:这样可以防止一部分爬虫访问,以及
初级
爬虫人员。 第三层 JS发送鼠标点击事件 有些网站,你从浏览器可以打开正常的页面,而在requests里面却被要求输入验证码或者是重定向到其他的页面。 原理:当点击登录时...
数据分析怎么学?我画了一个导图,又找到22本书
网络爬虫(又被称为网页
蜘蛛
、网络机器人,在FOAF社区中,更经常地称为网页追逐者)是一种按照一定的规则,自动
抓取
万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 网络...
《网上赚钱葵花宝典1.0完整版》
属于常规推广方式,
初级
站长用的比较多,工蚁式的推广。例如手机图铃,很多站长在自己的某个网页 / 网站挂好代码后,便手工去推广。甚至有些站长啥网站也不用,直接用联盟提供的全频道代码去推广,例如在某处发广告...
史上最详细的SEO优化的流程,没有之一
阿泽建议大家首要做的是给
蜘蛛
抓取
的网站地图,方便
蜘蛛
抓取
,也加深其对我们的印象。另外,如果我们能做好给用户的网站地图的话,也有利于提供我们在用户那里的体验哦。 关于网站地图的好处,阿泽建议可查看这篇...
C#
110,536
社区成员
642,578
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章