mapReduce优势在哪

justdo_ 2017-06-01 08:25:34

我是hadoop方面的新手，近期我想使用mapreduce来实现pageRank搜索算法（数据量大概在4G左右），关于算法的流程我是知晓的，我想知道我自己写java程序来模拟mapreduce和直接套用hadoop的mapreduce来实现有何区别，因为感觉hadoop的mapreduce使用了很多的变量及类，反而变得复杂了，我想知道hadoop的优势何在？

...全文

2050 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

且听_风吟 2018-01-23

打赏
举报

回复

分布式处理，现在不明显，在已经发布的3.0版本中，MR处理速度大大提升。大数据面试知识点分析专栏

dinghun8leech 2017-12-01

打赏
举报

回复

hadoop谈不上啥优势吧，只是那几篇大佬的论文、构想的第一个实现，做到了从0到1的突破，mr组件众多，从job提交，到切片，到map，到中间落地，到混洗，到reduce，到最终输出，东西确实多，落地次数又多，业界早就考虑用新技术替代它。

mlj0381 2017-09-15

打赏
举报

回复

优势就是分布式如果用java来实现算法可能只是单个节点计算要用分布式几个节点同时计算开发量非常巨大， mapreduce已经有规范只要按框架写算法就可以不用考虑太多分布式的问题。

kazoroth 2017-08-05

打赏
举报

回复

优势就是比传统方式访问文件系统要强，其他都是劣势，但其实应该考虑用spark tez storm这些

tom_fans 2017-07-04

打赏
举报

回复

MAP REDUCE实际有很多弱点，优势就是分布式，缺点太多，因此出现了很多MAP REDUCE变成模式。之前我特别讨厌MAP REDUCE，后来用着用着，感觉还行。

shiter 2017-06-05

打赏
举报

回复

优势我觉的是构建方便，充分利用现有机器性能管理方便

水方子 2017-06-02

打赏
举报

回复

hadoop提供的jar包可以适应多种程序要求。自己写的是针对你当前文件和要求的。可以不考虑多种因素。mapreduce最大的好处是结合多台机器。能把超级服务器才能处理的数据。放在多台普通机器上实现。

MapReduce与Spark异同点和优势比较

贝叶斯邮件过滤器具有较强的分类能力和较高的准确性，但前期的邮件集训练与学习耗用大量系统资源和网络资源，影响系统效率。提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验,较之目前流行的传统贝叶斯算法、K最近邻(NN算法和支持向量机SVM)算法，基于MapReduce的贝叶斯垃圾邮件过滤机制在召回率、查准率和精确率方面保持了较好的表现，同时降低了邮件学习和分类成本,提高了系统执行效率。

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数（WordCount）的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大，每个文档又包含大量的单词，则无法使用传统的线性程序进行处理，而这类问题正是 MapReduce 可以发挥优势的地方。在前面《MapReduce实例分析：单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。下面将介绍如何编写具体实现代码及如何运行程序。首先，在本地创建 3 个文件：file00l、file002 和 file003，文件具体

迭代计算普遍存在于大数据处理中，而传统的MapReduce不能显式地支持迭代计算。近几年，研究者扩展和改进原始MapReduce，已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述，较详细地阐述了这些研究成果，给出了它们各自的基本思想，并分析了它们各自的特点、优势和不足，且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。

MapReduce是由Google公司发明，近些年新兴的分布式计算模型。作为Google公司的核心技术，MapReduce在处理T级别以上巨量数据的业务上有着明显的优势。本文从分布式计算的历史背景开始，论述了MapReduce的灵感源泉及基本原理。 Google公司的MapReduce实现是该公司的保密技术，而来自开源社区Apache的Hadoop项目则是此思想的java克隆版本。最近几个月里，Stanford大学提出的Phoenix项目将MapReduce应用于共享存储结构的硬件平台上，取得了一定的成果。本文将重点论述，此三者在实现上的关键技术区别。

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章