Hadoop不同salve节点可以处理不一样的数据吗？（看需求解答）

小敏纸 2014-04-18 09:57:13

我的需求是这样的：

比如有三个文件需要作为mapper输入处理：file01, file02和file03。

另外还有三个文件作为配置参数存放在本地：r1, r2和r3。

我的mapper程序需要对r1，r2和r3做处理并分别生成三个不同的处理实例，处理算法一样，只是参数不同，所以生成了不同的类实例如p1, p2和p3，然后我想让p1只处理file01，p2只处理file02，p3处理只file03，并分别放到三个slave节点上各自处理，互不影响，然后将计算结果通过reduce进行汇总，这样可以吗？

我这样的目的是为了性能开销，因为r1，r2和r3实例都非常大，如果合并成一个实例计算太慢。以我的知识，这样的需求在Hadoop上不能实现，因为Hadoop上map输入文件似乎是不可区分的。急，求Hadoop大神帮忙提个想法，非常感谢。

...全文

573 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

小敏纸 2014-04-19

打赏
举报

回复

没人知道吗？急死我了

只用一个命令，就可以实现基于Docker容器的任意节点Hadoop集群的部署，即使是1000个节点的集群，也可以轻松运维。课程内容涉及Docker运行环境构建、Docker常用命令使用、Docker Dockerfile文件编写、Docker镜像构建...

1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem）和MapReduce...对于Hadoop的集群来讲，可以分成两大类角色

salve节点ID一致导致 datanode的VERSION里面有2个id是一模一样不能共存。datanodeUuid和storageID，每个节点的必须不同。而对于云服务器远程连接，主机名也不能一样如hadoop@ubuntu,hadoop@ubuntu改为hadoop@master,...

1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了...

一步步教你Hadoop多节点集群安装配置 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem）和MapReduce...

778

社区成员

370

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章