MapReduce求解top k问题

zpgdyx 2011-12-01 12:49:17

近来刚开始学习hadoop，想请教下如何使用mapreduce求救top k问题。
原始数据如下：
key value
US 2
EN 3
CN 8
IN 4
..........
我想得到value中前k大的key/value值，这个如何实现呢？

...全文

111 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

java大数据培训学校全套教材系列课程由1000集视频构成，基本就是1）时下流行的java培训学校主流内部教材，2）和市面上培训学校的通行的课程体系几乎一样。所以这套课程都能自己学下来，等于上了培训学校一次，完全可以找个java工程师的工作了。通过学习MapReduce程序，如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，自定义输出：多文件输出MultipleOutputs，DBOutputFormat把MapReduce结果输出到mysql中，MapReduce实现join算法，map端做join，寻找用户间的共同好友等，围绕着Mapreduce知识点的相关14个问题，学过后可以基本胜任MapReduce编程工作。课程特色：专业细致，偏案例，理论强。课程软件使用：必须下载 2018 eclipse 4.7 oxygen版本重要声明：如果感觉噪音大，可以选择不用耳机，加音箱或用电脑原声

利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考：https://github.com/asker124143222/wordcount 1、样本数据，假设是订单数据，求解按订单id排序且每个订单里价格最高前三，从高到低排序。订单ID 商品ID 单价 0000001 Pdt_01 222.8 0000002 Pdt_05 72...

一、简介求TopK是算法中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求TopK。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求Top 5。样例输入： 1）file1： 1 2 3 7 9 -99 2 2）file2： ...

海量数据中找出前k大数（topk问题）海量数据中找出前k大数（topk问题）前两天面试3面学长问我的这个问题（想说TEG的3个面试学长都是好和蔼，希望能完成最后一面，各方面原因造成我无比想去鹅场的心已经按捺不住了），这个问题还是建立最小堆比较好一些。先拿10000个数建堆，然后一次添加剩余元素，如果大于堆顶的数（10000中最小的），将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的10000个数就是所需的最大的10000个。建堆时间复杂度是O（mlogm），算法的时间复

Top-k的最小堆解决方法问题描述：有N(N>>10000)个整数,求出其中的前K个最大的数。（称作Top k或者Top 10）问题分析：由于(1)输入的大量数据；(2)只要前K个，对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该问题。最小堆如图所示，对于每个非叶子节点的数值，一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章