热词算法

kingbogu 2012-08-13 02:00:18
数据库里有一大堆10个字左右的句子,想在这些句子中找出,出现频率最高的前10个词(热词),当然像“的”“地”等这些单个无用的词不认为是热词,希望有人给点使用的算法思想,或者直接代码,或者一起讨论下。谢谢!!
...全文
306 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
寻找自我 2012-08-13
  • 打赏
  • 举报
回复
http://blog.csdn.net/v_july_v/article/details/6142146 我来给个链接。
其实这10个字的句子 不会用到什么 隐含马尔可夫模型的。
houjin_cn 2012-08-13
  • 打赏
  • 举报
回复
分词+统计
Gloveing 2012-08-13
  • 打赏
  • 举报
回复
google 数据挖掘10大经典算法
Gloveing 2012-08-13
  • 打赏
  • 举报
回复
google 数据挖掘10大经典算法
寻找自我 2012-08-13
  • 打赏
  • 举报
回复
字典树应该就可以了
kingbogu 2012-08-13
  • 打赏
  • 举报
回复
当然那些句子都是能读得通的句子,我觉得如果在这么多句子中某两个字或多个字出现在一起的频率比较高时,他们应该组成的是一个有意义的词了。
翅膀又硬了 2012-08-13
  • 打赏
  • 举报
回复
感觉很复杂,还需要字典吧?怎么确定哪两个或者多个相邻的字是一个词? 判断热词应该相对容易一些,统计排序。

64,648

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧