社区
Web 开发
帖子详情
如何实现统计海量数据出现频率最高的词
luweipo
2012-09-14 06:59:35
比如,多条聊天记录,要统计出现频率最高的词,
用什么技术实现
如何实现
请指教
...全文
287
1
打赏
收藏
如何实现统计海量数据出现频率最高的词
比如,多条聊天记录,要统计出现频率最高的词, 用什么技术实现 如何实现 请指教
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
LogicTeamLeader
2012-09-14
打赏
举报
回复
[Quote=引用楼主 的回复:]
比如,多条聊天记录,要统计出现频率最高的词,
用什么技术实现
如何实现
请指教
[/Quote]
真的是海量么?那就使用Solr或者Lucene,反正就是全文检索技术。
哦对了,你这个不用那么复杂,使用一个中文分词的工具包就可以了,推荐ICTCLAS或者paoding,看几个例子便知道了。
不用感谢组长,结贴吧。
MySQL 存储过程(创建
海量
数据
实验环境)
================================ # 存储过程概念 存储过程是
数据
库管理中常用的技术之一,可以很方便的做些创建
数据
、
统计
数据
、分析
数据
等工作,当前的主流
数据
库都支持存储过程,但不同的
数据
库环境语法结构有...
海量
数据
快速查找
出现
频率
topN
海量
数据
寻找
出现
频率
最多的topN,且内存受到限制,该如何处理呢?主要思想就是分治。如果使用框架处理,hadoop的MapReduce运算框架是可以解决的,且是分布式的处理。但是单机版该如何处理呢。空闲时间使用python3...
怎样从10亿查询
词
找出
出现
频率
最高
的10个
在大规模
数据
处理中,常遇到的一类问题是,在
海量
数据
中找出
出现
频率
最高
的前K个数,或者从
海量
数据
中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,
统计
搜索最热门的10个查询
词
;...
海量
数据
top K问题
经常会遇到的一类问题就是在
海量
数据
中找出
出现
频率
最高
的前K个数,或者从
海量
数据
中找出最大的前K个数,这种问题被称为top K问题,例如在搜索引擎中,
统计
搜索搜索最热门的10个查询
词
或者
统计
下载率中下载最多的...
[面试题]
海量
数据
处理-从10亿个数中找
频率
最高
的1000个数
即先将
数据
集按照Hash方法分解成多个小
数据
集,然后使用Trie树或者Hash
统计
每个小
数据
集中的query
词
频,之后用小顶堆求出每个
数据
集中
出现
频率
最高
的前K个数,最后在所有top K中求出最终的top K。 方法二:hadoop的...
Web 开发
81,092
社区成员
341,718
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章