求关于词典检索的算法提示

hupo1982 2009-04-30 06:52:52

比如说我有一个包含大约几百个关键词的词典（关键词数量不会太多，全部为中文词），我要检索随便一篇文章中出现频度最高的五个关键词，是不是应该遍历整个词典，然后依次统计每个关键词在文章中出现的频度？
还是先把文章分词然后再来检索词典？

...全文

123 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

LennonKwan 2009-05-02

打赏
举报

回复

如果文章多或者长，可能构造关键字的有限自动机来分析更高效

猫已经找不回了 2009-05-02

打赏
举报

回复

只用用STL，map实现，省事。
C++ primer上不是有类似的例子么。效率不低啊。

第4版，第10章的TextQuery，你可以参考下。

warren258 2009-04-30

打赏
举报

回复

[Quote=引用 2 楼 liao05050075 的回复:]
先把文章分词然后再来检索词典会高效一些。

因为文章应该比词典要来得大。
遍历整个词典，然后依次统计每个关键词在文章中出现的频度需要多次遍历文章，这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次
[/Quote]
觉得有道理。

liao05050075 2009-04-30

打赏
举报

回复

先把文章分词然后再来检索词典会高效一些。

因为文章应该比词典要来得大。
遍历整个词典，然后依次统计每个关键词在文章中出现的频度需要多次遍历文章，这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次

hityct1 2009-04-30

打赏
举报

回复

先把文章分词然后再来检索词典。
几百个关键词的词典可用哈希表存储。

目前人们所提出的分词方法，在考虑效率问题时，通常在词典的组织方面进行某种调整，以适应相应的算法，如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中，或将词典按词条长度排序或按词频排序，...

这个程序的功能是：随机生成一个词典，10w左右的词，每个词是10~30的英文字母串，实现词典查找算法，即给定任意一个字符串，去看在词典中是否存在整体的思路是：（1）字符串生成函数。该函数能够生成...

Bag of Features 图像检索算法及其python实现1.原理2.代码实现 PS：阅读此文需要读者对图像提取特征点，生成描述符的知识有一定了解，如sift，surf算法等等，对生成向量类心的k-means算法也需要有一定的了解。 1....

词典及容错式检索目录词典及容错式检索词典搜索的数据结构词典的数据结构中存储了词项词汇表，文档频率，每个倒排记录表的指针.... 哈希表树二叉搜索树 B树 B+树数据结构通配符查询* 轮排...

二、Bag of Feature 算法实验 2.1实验要求构造不小于100张图片的数据集针对数据集，做SIFT特征提取根据SIFT特征提取结果，采用k-means算法学习“视觉词典(visual vocabulary)”，其中维度至少满足4个量级(比如10...

数据结构与算法

33,010

社区成员

35,327

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章