如何访问HDFS中的Block

niqusiba2009 2011-11-22 03:00:37

请问各位大侠，有没有什么方法可以对HDFS中的数据以block为单位进行读写？

...全文

85 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在hdfs中，如果上传一个大文件，文件会被按64MB每个block来分割到不同的datanode上。在hdfs中添加小于一个文件块的大小的文件，实际占用linux文件系统的大小仍然是文件大小，而非一个hdfs系统中一个块（默认64M）的大小。那么hdfs中设置块的大小还有必要吗，有什么作用？ hdfs设置block的目的 1 为什么通常选择64M或者128，256M（最优选择）？不能太小的原因： 1 减少硬盘寻道时间：hdfs设计是为了支持大容量数据，如果数据块大小设置过小，需要读取的数据块更多，增大了总

HDFS中寻址时间一般为10ms，则传输时间最好为10ms/1%=1000ms=1s，而当前普通的机械硬盘的传输速度为100M/s左右，所以为了达到最佳状态，每个地址的数据大小最好为1s*100M/s=100M。如果block过大，传输时间的%1会明显大于寻址时间，导致寻址时间与传输时间不平衡，另外InputFormat的默认切片规则会以block的大小确定切片的大小，block越大，切片就会越大，Map过程会变得缓慢。由此每个block大的大小默认设置为128M。

为了确认上述问题的答案，从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明，发现是从2.7.3版本开始，官方关于Data Blocks 的说明中，block size由64 MB变成了128 MB的。有的说是Hadoop 1.X版本是64MB，2.X版本是128MB，有的说Apache Hadoop 是64MB，Clouder Hadoop是128MB。关于block size的默认大小，有的说是64 MB，有的说是128 MB。

一般情况下，任何磁盘都有‘最小读写单位’的概念，可以理解为该磁盘的‘block’。建立在该磁盘之上的文件系统也有‘block’的概念，一般为磁盘‘block’大小的整数倍。对于用户来说，这些读写限制都是透明的。（即，用户感觉自己可以读写任意大小的文件。）然而有些应用则是运行在文件系统block层级的，可以感知到block的存在，比如 df 和 fsck。 HDFS 作为一种文件系统，当然也需要有...

被问到hadoop的HDFS的block默认存储大小想都没想直接回答64M 。。。抱着学习的心态，我们去官网一探究竟 hadoop1.2.1 hadoop2.6.0 hadoop2.7.0 hadoop2.7.2 Data Blocks HDFS is designed to support very large files. Applications that are compatible with HDFS are those that deal with large data set.

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章