文件中存储10亿个用户姓名，如何快速找到出现频率最高的前100名？

架构师卖油翁 2015-01-29 09:33:51

...全文

1377 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

Evankaka 2015-02-17

打赏
举报

好熟悉的面试题目。。。

tchqiq 2015-02-16

打赏
举报

十亿，估计awk不行了~两个mapreduce就可以。你们要是有hive那就一句sql的事情：


select name,count(1) as num from t1
group by name
order by num desc
limit 100

不过你可以试试awk：


awk ‘{a[$1]++} END {for (i in a) print i,a[i]}' file | sort -rn 2 |  head 100

yanghaishui351988 2015-02-15

打赏
举报

典型的TOP N问题，思路就是分而治之，将文件split多个块，每个块取TOP N，或者最简单的就是先拿100 个出来，以后每次拿出来相比较呗

江南浙里 2015-02-07

打赏
举报

2楼正解,可以参考

人生偌只如初见 2015-01-30

打赏
举报

可以写2个MapReduce，第一个MapReduce统计每个姓名出现的频率，第二个MapReduce利用Shuffle Sort 将姓名和出现频率当作KEYr然后取Top N

Daly罗 2015-01-30

打赏
举报

Hadoop 自带示例WordCount可以计算出单词出现的次数，分析这个文件即可。

在计算机科学中，trie，又称前缀树或字典树，使用一些单词来构建Trie树,如下图所示:根节点没有数据从根节点到某一个节点,将他们的路径进行连接就组成了对应的字符串定义:Trie树，又称为前缀树或字典树, 是一种用于...

假如每个url大小为10bytes，那么可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，所以不可能将其完全加载到内存中处理，可以采用分治的思想来解决。　Step1：遍历文件a，对每个url求取hash(url)%...

文章目录5.1 文件管理概述5.2 文件结构5.2.1 文件的逻辑结构5.2.2 文件的物理结构5.3 文件目录管理5.4 文件的存储设备5.4.1 文件的存储设备5.4.2 磁盘调度算法5.4.3 存储空间的分配与回收5.5 文件的共享与安全 ...

问题导读：1、怎样使用SQL统计出每个用户的累积访问次数？ 2、怎样使用SQL查询和排序亿级记录？ 3、怎样使用SQL查询并排序分组取出前10？第一题1、需求我们有如下的用户访问数据 userId visitDate visit...

数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。 1.1.2...

Hadoop生态社区

20,847

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章