社区
分析与设计
帖子详情
有人用vb.net 做过网络蜘蛛吗??可提供程序瞧瞧吗?高分相送(不够再加~)
Echone902
2005-05-08 04:20:45
只能先送100分,不够加~
毕业设计用,难啊
根据关键字(放在数据库中的)到网上搜集与含关键字内容的网页,在将网页分类放在数据库中
就是怎么到网上搜集网页,不会做,而且一点都没头绪
我现在只是知道,如何下载网页(根据网址的),获取超链接,多进程几个小程序,都是书上看来的
现在真是无能为力
高手高手在哪里??
给我提供点思路也行啊
...全文
365
20
打赏
收藏
有人用vb.net 做过网络蜘蛛吗??可提供程序瞧瞧吗?高分相送(不够再加~)
只能先送100分,不够加~ 毕业设计用,难啊 根据关键字(放在数据库中的)到网上搜集与含关键字内容的网页,在将网页分类放在数据库中 就是怎么到网上搜集网页,不会做,而且一点都没头绪 我现在只是知道,如何下载网页(根据网址的),获取超链接,多进程几个小程序,都是书上看来的 现在真是无能为力 高手高手在哪里?? 给我提供点思路也行啊
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
20 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
iambluebird
2005-07-24
打赏
举报
回复
使用GOOGLE或者YAHOO作为搜索核心的话称之为元搜索,如果用这个来采集网页样本的话不现实。各大搜索引擎都限制了连续搜索频率,如果频率过高,IP会被封掉
头段时间做聚焦搜索引擎的时候顺带写的元搜索就因为这个原因头疼了好久
可以考虑先获得常用词表,然后获得某一类网页(作为分类标准的几张页子)的词汇,两个进行计算获得该类网页的特征词条(多条,建议取前40-60条),并计算出该特征词条属于本类的权重。
传入新网页进行分类的时候首先提取出该网页的特征词条,然后从类特征词表中查询该词的劝重,通过计算得到该网页对于本类的相似度。就可以进行分类了。
至于如何得到传入的待分类网页,有很多方法,YAHOO提供了随机URL提取功能,不过并不好,你不能将范围固定在一个方面。好点的方法是从一个你手工找到的很好的网页作为起点,提取其中所有的URL,然后又打开这些URL再提取其中的URL,不断地往下爬,理论上是可以得到无限多的网页的。
做E文的好做点,中文的分词是个大麻烦
iambluebird
2005-07-24
打赏
举报
回复
使用GOOGLE或者YAHOO作为搜索核心的话称之为元搜索,如果用这个来采集网页样本的话不现实。各大搜索引擎都限制了连续搜索频率,如果频率过高,IP会被封掉
头段时间做聚焦搜索引擎的时候顺带写的元搜索就因为这个原因头疼了好久
可以考虑先获得常用词表,然后获得某一类网页(作为分类标准的几张页子)的词汇,两个进行计算获得该类网页的特征词条(多条,建议取前40-60条),并计算出该特征词条属于本类的权重。
传入新网页进行分类的时候首先提取出该网页的特征词条,然后从类特征词表中查询该词的劝重,通过计算得到该网页对于本类的相似度。就可以进行分类了。
至于如何得到传入的待分类网页,有很多方法,YAHOO提供了随机URL提取功能,不过并不好,你不能将范围固定在一个方面。好点的方法是从一个你手工找到的很好的网页作为起点,提取其中所有的URL,然后又打开这些URL再提取其中的URL,不断地往下爬,理论上是可以得到无限多的网页的。
liduke
2005-07-19
打赏
举报
回复
最后一位
syxcm
2005-07-19
打赏
举报
回复
贝叶氏分滤是什么啊
iambluebird
2005-07-19
打赏
举报
回复
采用特征词匹配度获取相关网页,顺着网页里的URL爬起走。计算匹配度的时候用个贝叶氏分滤就OK了
sonymusic
2005-07-19
打赏
举报
回复
关键是算法问题。我也在研究中……
iceflylee
2005-07-18
打赏
举报
回复
mark一下!类似于小偷吧
Echone902
2005-07-18
打赏
举报
回复
再进来一个人,我就把贴结了,每人10分
Echone902
2005-07-18
打赏
举报
回复
其实我只是做了一个能在几个网站中同时搜索信息的功能,其他的没什么实现,做的很粗糙,但我觉地我能做出来已经很不错了,哈哈
lovebanyi
2005-07-17
打赏
举报
回复
楼主。第二楼的哪个方法那么棒。你却不要。晕了,
不要你自己来考虑分词(中文智能分词),和蜘蛛。直接把结果入库。。
Echone902
2005-07-15
打赏
举报
回复
楼上的有何高见??
虽然已经结束了,但我毕竟也花了很多时间,能跟人家再讨论讨论我也乐意的:)
syeerzy
2005-07-02
打赏
举报
回复
来晚了..
Alden
2005-06-23
打赏
举报
回复
帮你顶一下
Echone902
2005-06-22
打赏
举报
回复
嘿嘿,已经答辩过了,还好,还得了个良,不至于太丢脸
不过还是谢谢楼上的好人
昨今明2017
2005-06-20
打赏
举报
回复
现在好像要做这个的不少啊.:)
http://blog.csdn.net/fasttalk/archive/2004/12/23/227178.aspx
是Java的文章.我想,还是适合你的.
其中用的全文检索的Lucene有.Net的.
Spider吗,也有开源的.你的E文和Java不错的话,哈哈,可以去找一下相关的资料.
祝你成功.
Echone902
2005-05-16
打赏
举报
回复
我现在是想这么做了,
3个数据库表,一个是关键字数据库,一个是自己搜集的可能会含有关键字的站点的首页,一个是经搜集整理之后含关键字的网页的网址
大致是这样:利用自己搜集的网页网址开始搜索,跟关键字比较,得到含关键字的网页的网址,将网址存入最后一个数据库中
我现在能实现了最简单的一部分:取一 网址,取一关键字(赋值),比较,如网页中有关键字,将该页面网址存入数据库中。搜索那部分还要什么多线程啊,什么的,,,,,都还没实现
lih163
2005-05-16
打赏
举报
回复
网络机器人呀
wwg_yuyin
2005-05-13
打赏
举报
回复
帮你顶一下
wwg_yuyin
2005-05-13
打赏
举报
回复
顶一下
blueasan
2005-05-11
打赏
举报
回复
给你一个提示:
你可以先把你数据库的keyword在百度或是GOOGLE中搜一下,然后在把它显示出来的页面读取分析一下。结果存入数据库,这是最简单的方法了
如果你真 是想从头做的话,你也可以开一个百度公司了:)
VB
.NET
编程技巧与实例集粹PDF,200个经典实例,非常好的教程.
VB
.NET
编程技巧与实例集粹PDF,200个经典实例,非常好的教程.
vb
.net
串口通信
这是3年前自己
做
串口通信时的例子, 经过验证的,并且是byte传
送
的, 很好的例子。
vb
.net
简单酒店管理系统(有论文)
刚刚找到的!简单的酒店管理系统
SciTech
.NET
.Memory.Profiler.v4.0.114.安装_注册机
NET Memory Profiler-找到内存泄漏并优化内存使用针对C#,
VB
.Net
, 或其它
.Net
程序
。 包含安装+注册机
.NET
二维码生成(ThoughtWorks.QRCode)源代码
.NET
二维码生成(ThoughtWorks.QRCode)源代码,源码介绍博客:http://www.cnblogs.com/jys509/p/4592539.html
分析与设计
13,190
社区成员
5,759
社区内容
发帖
与我相关
我的任务
分析与设计
.NET技术 分析与设计
复制链接
扫一扫
分享
社区描述
.NET技术 分析与设计
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章