求关于词典检索的算法提示

hupo1982 2009-04-30 06:52:52
比如说我有一个包含大约几百个关键词的词典(关键词数量不会太多,全部为中文词),我要检索随便一篇文章中出现频度最高的五个关键词,是不是应该遍历整个词典,然后依次统计每个关键词在文章中出现的频度?
还是先把文章分词然后再来检索词典?
...全文
123 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
LennonKwan 2009-05-02
  • 打赏
  • 举报
回复
如果文章多或者长,可能构造关键字的有限自动机来分析更高效
  • 打赏
  • 举报
回复
只用用STL,map实现,省事。
C++ primer上不是有类似的例子么。效率不低啊。

第4版,第10章的TextQuery,你可以参考下。
warren258 2009-04-30
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 liao05050075 的回复:]
先把文章分词然后再来检索词典会高效一些。

因为文章应该比词典要来得大。
遍历整个词典,然后依次统计每个关键词在文章中出现的频度需要多次遍历文章,这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次
[/Quote]
觉得有道理。
liao05050075 2009-04-30
  • 打赏
  • 举报
回复
先把文章分词然后再来检索词典会高效一些。

因为文章应该比词典要来得大。
遍历整个词典,然后依次统计每个关键词在文章中出现的频度需要多次遍历文章,这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次
hityct1 2009-04-30
  • 打赏
  • 举报
回复
先把文章分词然后再来检索词典。
几百个关键词的词典可用哈希表存储。

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧