社区
Hadoop生态社区
帖子详情
如何访问HDFS中的Block
niqusiba2009
2011-11-22 03:00:37
请问各位大侠,有没有什么方法可以对HDFS中的数据以block为单位进行读写?
...全文
85
回复
打赏
收藏
如何访问HDFS中的Block
请问各位大侠,有没有什么方法可以对HDFS中的数据以block为单位进行读写?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hdfs
中
block
size规则
在
hdfs
中
,如果上传一个大文件,文件会被按64MB每个
block
来分割到不同的datanode上。在
hdfs
中
添加小于一个文件块的大小的文件,实际占用linux文件系统的大小仍然是文件大小,而非一个
hdfs
系统
中
一个块(默认64M)的大小。那么
hdfs
中
设置块的大小还有必要吗,有什么作用?
hdfs
设置
block
的目的 1 为什么通常选择64M或者128,256M(最优选择)? 不能太小的原因: 1 减少硬盘寻道时间:
hdfs
设计是为了支持大容量数据,如果数据块大小设置过小,需要读取的数据块更多,增大了总
HDFS
中
block
的大小
HDFS
中
寻址时间一般为10ms,则传输时间最好为10ms/1%=1000ms=1s,而当前普通的机械硬盘的传输速度为100M/s左右,所以为了达到最佳状态,每个地址的数据大小最好为1s*100M/s=100M。如果
block
过大,传输时间的%1会明显大于寻址时间,导致寻址时间与传输时间不平衡,另外InputFormat的默认切片规则会以
block
的大小确定切片的大小,
block
越大,切片就会越大,Map过程会变得缓慢。由此每个
block
大的大小默认设置为128M。
HDFS
中
Block
size的默认大小
为了确认上述问题的答案,从Hadoop的官网上看了各个版本的说明文档
中
关于 Data
Block
s 的说明,发现是从2.7.3版本开始,官方关于Data
Block
s 的说明
中
,
block
size由64 MB变成了128 MB的。有的说是Hadoop 1.X版本是64MB,2.X版本是128MB,有的说Apache Hadoop 是64MB,Clouder Hadoop是128MB。关于
block
size的默认大小,有的说是64 MB,有的说是128 MB。
HDFS
概念之
block
详解
一般情况下,任何磁盘都有‘最小读写单位’的概念,可以理解为该磁盘的‘
block
’。建立在该磁盘之上的文件系统也有‘
block
’的概念,一般为磁盘‘
block
’大小的整数倍。对于用户来说,这些读写限制都是透明的。(即,用户感觉自己可以读写任意大小的文件。)然而有些应用则是运行在文件系统
block
层级的,可以感知到
block
的存在,比如 df 和 fsck。
HDFS
作为一种文件系统,当然也需要有...
HDFS
的
block
默认存储大小
被问到hadoop的
HDFS
的
block
默认存储大小 想都没想直接回答64M 。。。 抱着学习的心态,我们去官网一探究竟 hadoop1.2.1 hadoop2.6.0 hadoop2.7.0 hadoop2.7.2 Data
Block
s
HDFS
is designed to support very large files. Applications that are compatible with
HDFS
are those that deal with large data set.
Hadoop生态社区
20,808
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章