请教大家一个hadoop副本的基本问题

stormier 2013-10-26 10:36:42

我不太清楚副本是什么概念。我看hadoop权威指南里面讲副本是一个一个放置的，这就是说会把所有数据放到一个副本吗？这样的话一个副本所在的机器容量必须要大于副本？那么google这种规模的大数据每一个数据节点的容量岂不是都很大？

...全文

197 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

EACCD3B1 2013-10-26

打赏
举报

回复

一个副本指的就是一个数据块的一份存储，不是完整的数据

HDFS的副本数为什么为3？副本数为3，每一个block都要存3份，那多的2份都是冗余的啦只有一个节点，所有block以及其备份全都存在该节点上，若那个节点数据盘只使用一块硬盘，所有数据都在一块硬盘上，硬盘坏了，数据也就全丢了，多副本完全起不到备份的作用，而且HDFS的性能肯定也奇差无比，甚至存的数据量稍微大一点，DataNode就挂了。Hadoop的HDFS是不是云存储？HDFS是Hadoop...

前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Hadoop使用

在生产环境中，Hadoop 通常采用完全分布式安装，即集群部署。Hadoop 具有典型的主从架构，HDFS 的 NameNode 是主节点，DataNode 是从节点；YARN 的 ResourceManager 是主节点，NodeManager 是从节点。在正式部署前，做好规划至关重要，它不仅能指导安装过程，避免失误导致集群启动失败，还方便日后查询进程运行情况。

接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Hadoop使用者,包括

也就是说，我们其实已经实际删除了某些数据块，但是记录的元数据因为一些故障导致没有进行同步，就会出现这种情况。通俗来说就是，当前系统中元数据与记录数据块前后不一致，而 Hadoop 默认要求最大的误差阀值为。此时，我们就会发现那些数据块丢失的文件，将这些文件按照路径在 HDFS 中全部删除即可。如果你想要对文件进行恢复，那么则需要请教相关专业人士，使用磁盘修复工具进行处理。等待安全模式，通常情况下在脚本中使用，当集群退出安全模式后，立马执行相关操作。添加完成后，分发同步该文件，重启集群后生效。

Hadoop生态社区

20,844

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章