有人用vb.net 做过网络蜘蛛吗??可提供程序瞧瞧吗?高分相送(不够再加~)

Echone902 2005-05-08 04:20:45
只能先送100分,不够加~
毕业设计用,难啊


根据关键字(放在数据库中的)到网上搜集与含关键字内容的网页,在将网页分类放在数据库中

就是怎么到网上搜集网页,不会做,而且一点都没头绪

我现在只是知道,如何下载网页(根据网址的),获取超链接,多进程几个小程序,都是书上看来的
现在真是无能为力

高手高手在哪里??
给我提供点思路也行啊


...全文
365 20 打赏 收藏 转发到动态 举报
写回复
用AI写文章
20 条回复
切换为时间正序
请发表友善的回复…
发表回复
iambluebird 2005-07-24
  • 打赏
  • 举报
回复
使用GOOGLE或者YAHOO作为搜索核心的话称之为元搜索,如果用这个来采集网页样本的话不现实。各大搜索引擎都限制了连续搜索频率,如果频率过高,IP会被封掉
头段时间做聚焦搜索引擎的时候顺带写的元搜索就因为这个原因头疼了好久
可以考虑先获得常用词表,然后获得某一类网页(作为分类标准的几张页子)的词汇,两个进行计算获得该类网页的特征词条(多条,建议取前40-60条),并计算出该特征词条属于本类的权重。
传入新网页进行分类的时候首先提取出该网页的特征词条,然后从类特征词表中查询该词的劝重,通过计算得到该网页对于本类的相似度。就可以进行分类了。

至于如何得到传入的待分类网页,有很多方法,YAHOO提供了随机URL提取功能,不过并不好,你不能将范围固定在一个方面。好点的方法是从一个你手工找到的很好的网页作为起点,提取其中所有的URL,然后又打开这些URL再提取其中的URL,不断地往下爬,理论上是可以得到无限多的网页的。

做E文的好做点,中文的分词是个大麻烦
iambluebird 2005-07-24
  • 打赏
  • 举报
回复
使用GOOGLE或者YAHOO作为搜索核心的话称之为元搜索,如果用这个来采集网页样本的话不现实。各大搜索引擎都限制了连续搜索频率,如果频率过高,IP会被封掉
头段时间做聚焦搜索引擎的时候顺带写的元搜索就因为这个原因头疼了好久
可以考虑先获得常用词表,然后获得某一类网页(作为分类标准的几张页子)的词汇,两个进行计算获得该类网页的特征词条(多条,建议取前40-60条),并计算出该特征词条属于本类的权重。
传入新网页进行分类的时候首先提取出该网页的特征词条,然后从类特征词表中查询该词的劝重,通过计算得到该网页对于本类的相似度。就可以进行分类了。

至于如何得到传入的待分类网页,有很多方法,YAHOO提供了随机URL提取功能,不过并不好,你不能将范围固定在一个方面。好点的方法是从一个你手工找到的很好的网页作为起点,提取其中所有的URL,然后又打开这些URL再提取其中的URL,不断地往下爬,理论上是可以得到无限多的网页的。
liduke 2005-07-19
  • 打赏
  • 举报
回复
最后一位
syxcm 2005-07-19
  • 打赏
  • 举报
回复
贝叶氏分滤是什么啊
iambluebird 2005-07-19
  • 打赏
  • 举报
回复
采用特征词匹配度获取相关网页,顺着网页里的URL爬起走。计算匹配度的时候用个贝叶氏分滤就OK了
sonymusic 2005-07-19
  • 打赏
  • 举报
回复
关键是算法问题。我也在研究中……
iceflylee 2005-07-18
  • 打赏
  • 举报
回复
mark一下!类似于小偷吧
Echone902 2005-07-18
  • 打赏
  • 举报
回复
再进来一个人,我就把贴结了,每人10分
Echone902 2005-07-18
  • 打赏
  • 举报
回复
其实我只是做了一个能在几个网站中同时搜索信息的功能,其他的没什么实现,做的很粗糙,但我觉地我能做出来已经很不错了,哈哈
lovebanyi 2005-07-17
  • 打赏
  • 举报
回复
楼主。第二楼的哪个方法那么棒。你却不要。晕了,

不要你自己来考虑分词(中文智能分词),和蜘蛛。直接把结果入库。。
Echone902 2005-07-15
  • 打赏
  • 举报
回复
楼上的有何高见??
虽然已经结束了,但我毕竟也花了很多时间,能跟人家再讨论讨论我也乐意的:)
syeerzy 2005-07-02
  • 打赏
  • 举报
回复
来晚了..
Alden 2005-06-23
  • 打赏
  • 举报
回复
帮你顶一下
Echone902 2005-06-22
  • 打赏
  • 举报
回复
嘿嘿,已经答辩过了,还好,还得了个良,不至于太丢脸

不过还是谢谢楼上的好人
昨今明2017 2005-06-20
  • 打赏
  • 举报
回复
现在好像要做这个的不少啊.:)
http://blog.csdn.net/fasttalk/archive/2004/12/23/227178.aspx
是Java的文章.我想,还是适合你的.
其中用的全文检索的Lucene有.Net的.
Spider吗,也有开源的.你的E文和Java不错的话,哈哈,可以去找一下相关的资料.
祝你成功.
Echone902 2005-05-16
  • 打赏
  • 举报
回复
我现在是想这么做了,

3个数据库表,一个是关键字数据库,一个是自己搜集的可能会含有关键字的站点的首页,一个是经搜集整理之后含关键字的网页的网址
大致是这样:利用自己搜集的网页网址开始搜索,跟关键字比较,得到含关键字的网页的网址,将网址存入最后一个数据库中

我现在能实现了最简单的一部分:取一 网址,取一关键字(赋值),比较,如网页中有关键字,将该页面网址存入数据库中。搜索那部分还要什么多线程啊,什么的,,,,,都还没实现

lih163 2005-05-16
  • 打赏
  • 举报
回复
网络机器人呀
wwg_yuyin 2005-05-13
  • 打赏
  • 举报
回复
帮你顶一下
wwg_yuyin 2005-05-13
  • 打赏
  • 举报
回复
顶一下
blueasan 2005-05-11
  • 打赏
  • 举报
回复
给你一个提示:
你可以先把你数据库的keyword在百度或是GOOGLE中搜一下,然后在把它显示出来的页面读取分析一下。结果存入数据库,这是最简单的方法了
如果你真 是想从头做的话,你也可以开一个百度公司了:)

13,190

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 分析与设计
社区管理员
  • 分析与设计社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧