社区
数据结构与算法
帖子详情
求关于词典检索的算法提示
hupo1982
2009-04-30 06:52:52
比如说我有一个包含大约几百个关键词的词典(关键词数量不会太多,全部为中文词),我要检索随便一篇文章中出现频度最高的五个关键词,是不是应该遍历整个词典,然后依次统计每个关键词在文章中出现的频度?
还是先把文章分词然后再来检索词典?
...全文
123
5
打赏
收藏
求关于词典检索的算法提示
比如说我有一个包含大约几百个关键词的词典(关键词数量不会太多,全部为中文词),我要检索随便一篇文章中出现频度最高的五个关键词,是不是应该遍历整个词典,然后依次统计每个关键词在文章中出现的频度? 还是先把文章分词然后再来检索词典?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
LennonKwan
2009-05-02
打赏
举报
回复
如果文章多或者长,可能构造关键字的有限自动机来分析更高效
猫已经找不回了
2009-05-02
打赏
举报
回复
只用用STL,map实现,省事。
C++ primer上不是有类似的例子么。效率不低啊。
第4版,第10章的TextQuery,你可以参考下。
warren258
2009-04-30
打赏
举报
回复
[Quote=引用 2 楼 liao05050075 的回复:]
先把文章分词然后再来检索词典会高效一些。
因为文章应该比词典要来得大。
遍历整个词典,然后依次统计每个关键词在文章中出现的频度需要多次遍历文章,这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次
[/Quote]
觉得有道理。
liao05050075
2009-04-30
打赏
举报
回复
先把文章分词然后再来检索词典会高效一些。
因为文章应该比词典要来得大。
遍历整个词典,然后依次统计每个关键词在文章中出现的频度需要多次遍历文章,这将会花费很多时间
而先把文章分词然后再来检索词典会高效一些。却只需要遍历文章1次
hityct1
2009-04-30
打赏
举报
回复
先把文章分词然后再来检索词典。
几百个关键词的词典可用哈希表存储。
C++中文分词源码,分词的方法
目前人们所提出的分词方法,在考虑效率问题时,通常在
词典
的组织方面进行某种调整,以适应相应的
算法
,如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中,或将
词典
按词条长度排序或按词频排序,...
词典
查找
算法
这个程序的功能是:随机生成一个
词典
,10w左右的词,每个词是10~30的英文字母串,实现
词典
查找
算法
,即给定任意一个字符串,去看在
词典
中是否存在 整体的思路是: (1)字符串生成函数。该函数能够生成...
Bag of Features (BOF)图像
检索
算法
及其python实现(附代码)
Bag of Features 图像
检索
算法
及其python实现1.原理2.代码实现 PS:阅读此文需要读者对图像提取特征点,生成描述符的知识有一定了解,如sift,surf
算法
等等,对生成向量类心的k-means
算法
也需要有一定的了解。 1....
信息
检索
——
词典
及容错式
检索
词典
及容错式
检索
目录
词典
及容错式
检索
词典
搜索的数据结构
词典
的数据结构中存储了 词项词汇表,文档频率,每个倒排记录表的指针.... 哈希表 树 二叉搜索树 B树 B+树 数据结构 通配符查询* 轮排...
计算机视觉——BOF图像
检索
算法
二、Bag of Feature
算法
实验 2.1实验要
求
构造不小于100张图片的数据集 针对数据集,做SIFT特征提取 根据SIFT特征提取结果,采用k-means
算法
学习“视觉
词典
(visual vocabulary)”,其中维度至少满足4个量级(比如10...
数据结构与算法
33,010
社区成员
35,327
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章