MapReduce求解top k问题

zpgdyx 2011-12-01 12:49:17

近来刚开始学习hadoop，想请教下如何使用mapreduce求救top k问题。
原始数据如下：
key value
US 2
EN 3
CN 8
IN 4
..........
我想得到value中前k大的key/value值，这个如何实现呢？

...全文

110 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考：https://github.com/asker124143222/wordcount 1、样本数据，假设是订单数据，求解按订单id排序且每个订单里价格最高前三，从高到低排序。订单ID 商品ID 单价 0000001 Pdt_01 222.8 0000002 Pdt_05 72...

一、简介求TopK是算法中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求TopK。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求Top 5。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： ...

海量数据中找出前k大数（topk问题）海量数据中找出前k大数（topk问题）前两天面试3面学长问我的这个问题（想说TEG的3个面试学长都是好和蔼，希望能完成最后一面，各方面原因造成我无比想去鹅场的心已经按捺不住了），这个问题还是建立最小堆比较好一些。先拿10000个数建堆，然后一次添加剩余元素，如果大于堆顶的数（10000中最小的），将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的10000个数就是所需的最大的10000个。建堆时间复杂度是O（mlogm），算法的时间复

Top-k的最小堆解决方法问题描述：有N(N>>10000)个整数,求出其中的前K个最大的数。（称作Top k或者Top 10）问题分析：由于(1)输入的大量数据；(2)只要前K个，对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该问题。最小堆如图所示，对于每个非叶子节点的数值，一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的

问题你只有一个2C4G的机器（即内存是有限的）然后很简单的一个问题：一个6G的txt文件，每一行都出现了一个IP，要统计这其中出现频次最高的IP，返回出现TopK的IP，输出如下 <topCnt1, Ip1> <topCnt2, Ip1> ... <topCntK, IpK> TopK单机思路（分治）分治思想应该是容易想到的，如果读大二还不知道，那么赶快去学习具体实践步骤 1：每行一个IP：超过内存的大文件程序模拟产生了一个1G行，每行.

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章