有人研究过中文的全文检索算法么

white 2000-08-17 02:26:00

主要是分词算法，后面的索引建立跟英文的一样，我已找到。
英文的分词可以根据空格简单地就分出来了，可是中文却
没那么简单。谁能告诉我一个基本可行的算法么，不要求太好。

...全文

419 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

white 2001-03-06

打赏
举报

To marmoset:
您可以参照一下数据库的索引，他们的基本概念是一样的。

marmoset 2001-03-06

打赏
举报

请问（white）上面提到的索引建立算法是什么意思？这个索引是用来做什么事情的？

itshere 2001-02-06

打赏
举报

我在做分词理论，想做个分词词典，不只能否交流一下，hxx0571@263.net

white 2001-01-10

打赏
举报

非常感谢大家对我去年的问题还那么热情地回答。
最大取词法也是查表法的一种，还有据说从后往前取比从前往后取更准确。
还有许多据说带人工智能的算法，不过总体效果并不理想。
后来我实际采用的算法是“全部取词法”，即只要能认出是一个词，就取出来。这样，索引里有
许多冗余信息，不过多了总比查不到要好，这也是考虑实际使用全文检索的用户的需求，他们
一般要求高的命中率，然后才是准确率。
至于建立索引的算法，是采用的一个国外的索引内核，不过算法本身并不复杂，可以参考数据库
的索引技术。

最后产品的效果，大家可以上http://www.hermes.com.cn/ecoinfo.htm查看，现在的效果还
不是太理想，除了算法上本身没有什么突破外，另一个原因是词典比较落后，我没有钱购买商业
的词典:-)

hsboy 2001-01-09

打赏
举报

请问分词后又该如何建索引？

bitfarmer 2001-01-09

打赏
举报

最简单的办法是最大取词法。即从第一个字开始直到不能组成词为止，然后继续处理剩下的部分。

下面这一段不是某种语言源代码，只用于说明方法。
string sentence,temp;
array of string word_list;
integer i,word_count;
i=0;word_count=0;
while i<sentence_length do
begin
temp=sentence[i];
while is_word(temp) do
begin
i=i+1;
temp=temp+sentence[i];
end;
word_list[word_count]=temp;
word_count=word_count+1;
end;
这种方法的准确率大概只有80%。is_word函数中可以简单的通过查询词语库来返回是否是一个词语。

Pany 2001-01-07