社区
Hadoop生态社区
帖子详情
MapReduce求解top k问题
zpgdyx
2011-12-01 12:49:17
近来刚开始学习hadoop,想请教下如何使用mapreduce求救top k问题。
原始数据如下:
key value
US 2
EN 3
CN 8
IN 4
..........
我想得到value中前k大的key/value值,这个如何实现呢?
...全文
110
回复
打赏
收藏
MapReduce求解top k问题
近来刚开始学习hadoop,想请教下如何使用mapreduce求救top k问题。 原始数据如下: key value US 2 EN 3 CN 8 IN 4 .......... 我想得到value中前k大的key/value值,这个如何实现呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hadoop
mapreduce
求解
有序TopN
利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。 代码参考:https://github.com/asker124143222/wordcount 1、样本数据,假设是订单数据,
求解
按订单id排序且每个订单里价格最高前三,从高到低排序。 订单ID 商品ID 单价 0000001 Pdt_01 222.8 0000002 Pdt_05 72...
Hadoop入门(二十四)
Mapreduce
的求TopK程序
一、简介 求TopK是算法中最常使用到的,现在使用
Mapreduce
在海量数据中统计数据的求TopK。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的求Top 5。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: ...
海量数据TopK
问题
海量数据中找出前k大数(topk
问题
) 海量数据中找出前k大数(topk
问题
) 前两天面试3面学长问我的这个
问题
(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个
问题
还是建立最小堆比较好一些。 先拿10000个数建堆,然后一次添加剩余元素,如果大于堆顶的数(10000中最小的),将这个数替换堆顶,并调整结构使之仍然是一个最小堆,这样,遍历完后,堆中的10000个数就是所需的最大的10000个。建堆时间复杂度是O(mlogm),算法的时间复
海量数据处理的 Top K相关
问题
Top-k的最小堆解决方法
问题
描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10)
问题
分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该
问题
。最小堆如图所示,对于每个非叶子节点的数值,一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的
大文本文件(接近7GB): 统计频数,Top K
问题
求解
问题
你只有一个2C4G的机器(即内存是有限的) 然后很简单的一个
问题
: 一个6G的txt文件,每一行都出现了一个IP,要统计这其中出现频次最高的IP,返回出现TopK的IP,输出如下 <topCnt1, Ip1> <topCnt2, Ip1> ... <topCntK, IpK> TopK单机思路(分治) 分治思想应该是容易想到的,如果读大二还不知道,那么赶快去学习 具体实践 步骤 1:每行一个IP:超过内存的大文件 程序模拟产生了一个1G行,每行.
Hadoop生态社区
20,811
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章