简单搜索引擎的实现

Wijor 2010-12-18 05:25:42
实现一个中文全文搜索引擎,能够快速检索中文关键字在文本集中出现的位置(假设文本已经进过分词工具处理)。

要求:
1、假设文本集都是纯文本的,不需要考虑非纯文本格式的预处理过程。
2、允许使用ICTCLAS先对文本做分词,即文本集都已经分好词。
3、必须以一定的数据结构为文本集建立索引。可以假设内存能够装下整个文本集。
4、查询速度要求是以秒计算的。
5、命令行界面可以接受,输入为中文关键字,查询结果必须起码给出查询到的文档们的路径。


会的朋友说下思路,我想用C#语言实现。
...全文
207 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
Qingtianp 2010-12-19
  • 打赏
  • 举报
回复
我自己做了个关于网页的搜索引擎,加我好友我发给你
Wijor 2010-12-18
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 wuyq11 的回复:]
sql server可实现全文检索
EXEC sp_fulltext_table
DotLucene的效率非常高,
DotLucene的索引方式属于"倒排索引"
并且还具有搜索非结构数据以及本地化等特点。
[/Quote]


能不能把具体实现是思路说下。如怎么把文本文件存储在数据库表中,前台怎么调用等....
wuyq11 2010-12-18
  • 打赏
  • 举报
回复
sql server可实现全文检索
EXEC sp_fulltext_table
DotLucene的效率非常高,
DotLucene的索引方式属于"倒排索引"
并且还具有搜索非结构数据以及本地化等特点。

Wijor 2010-12-18
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 subxli 的回复:]
或者还有个hubble.net
[/Quote]


谢了,但这些都是分词工具的一些相关知识而已,我想要的是实现搜索引擎的思路。如输入一个词语,然后在很多文本集里面进行匹配。
subxli 2010-12-18
  • 打赏
  • 举报
回复
或者还有个hubble.net
subxli 2010-12-18
  • 打赏
  • 举报
回复

110,567

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧