hdfs中已经存在的未压缩数据如何压缩它们

曹宇 2014-10-30 11:58:12

如题,目前主要是针对hbase的数据
目前没有太好的解决办法
有一下思路:
1,将数据拿出来用java代码加上压缩算法重新写入hdfs
但是这样的话,会破坏hdfs中的文件命名,也就是说无法控制block的命名这样与hbase的meta信息不符合会导致数据无法被hbase读取的问题
2,在hbase中query出这些数据,然后通过压缩算法重新入库.
这样的话虽然可以但是如果数据量比较大的话,十分影响效率以及占用时间

目前最理想的是 hadoop有什么命令可以直接对hdfs上的某个目录文件进行压缩如类似: hadoop fs -compression {compressionType} {path}
不过这也只是想象中的,目前没找到合适的方法
还请大家想想方法.

...全文

754 11 打赏收藏转发到动态举报

写回复

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

曹宇 2014-10-30

打赏
举报

回复

目前集群已经安装好了 GZ LZO SNAPPY

曹宇 2014-10-30

打赏
举报

回复

引用 9 楼 sky_walker85 的回复:

[quote=引用 7 楼 ProgrammingPower 的回复:] [quote=引用 5 楼 sky_walker85 的回复:] 如果不是hbase中的数据，可以写MapReduce作业，设置参数mapred.output.compress为true。这样会将作业的输出进行压缩

额额外再问一下您. 有没有办法不破坏原有block命名结构就是原样输出呢? 多谢了!!![/quote] 其实我不太懂你为什么这么不想破坏原有的block命名结构，毕竟对用户来说记录这些block还是不现实的。我觉得只要不破坏数据就行了，除非是有其他系统需要这些原有的block，否则我觉得可以直接写作业完成压缩，然后删除掉原有数据[/quote] 恩其实我刚刚去用hadoop fs -ls 命令仔细查看了一下其实是我陷入误区了 hbase在hdfs中是一个region一个文件 meta中记录的是region的文件名而非block 对于文件来说其物理实体block是透明的我一直去纠结万一block名字改了meta就会读取不到后来我想错了. meta知道region文件的名字路径就可以了至于不是hbase的文件不想破坏命名结构也是受上面的误区就像您说的只要保证文件名一致就可以了多谢啦.

曹宇 2014-10-30

打赏
举报

回复

引用 8 楼 sky_walker85 的回复:

如果仅是不破坏原有的block名称，可以通过先重命名该文件，然后将输出保存为原有block的文件名

恩就是麻烦些思路可以这样多谢您啦..

skyWalker_ONLY 2014-10-30

打赏
举报

回复

引用 7 楼 ProgrammingPower 的回复:

[quote=引用 5 楼 sky_walker85 的回复:] 如果不是hbase中的数据，可以写MapReduce作业，设置参数mapred.output.compress为true。这样会将作业的输出进行压缩

额额外再问一下您. 有没有办法不破坏原有block命名结构就是原样输出呢? 多谢了!!![/quote] 其实我不太懂你为什么这么不想破坏原有的block命名结构，毕竟对用户来说记录这些block还是不现实的。我觉得只要不破坏数据就行了，除非是有其他系统需要这些原有的block，否则我觉得可以直接写作业完成压缩，然后删除掉原有数据

skyWalker_ONLY 2014-10-30

打赏
举报

回复

如果仅是不破坏原有的block名称，可以通过先重命名该文件，然后将输出保存为原有block的文件名

曹宇 2014-10-30

打赏
举报

回复

引用 5 楼 sky_walker85 的回复:

如果不是hbase中的数据，可以写MapReduce作业，设置参数mapred.output.compress为true。这样会将作业的输出进行压缩

额额外再问一下您. 有没有办法不破坏原有block命名结构就是原样输出呢? 多谢了!!!

曹宇 2014-10-30

打赏
举报

回复

引用 5 楼 sky_walker85 的回复:

如果不是hbase中的数据，可以写MapReduce作业，设置参数mapred.output.compress为true。这样会将作业的输出进行压缩

恩也对不是hbase的数据破坏了数据命名也没关系毕竟没有meta了多谢了思维绕进去了.

skyWalker_ONLY 2014-10-30

打赏
举报

回复

如果不是hbase中的数据，可以写MapReduce作业，设置参数mapred.output.compress为true。这样会将作业的输出进行压缩

曹宇 2014-10-30

打赏
举报

回复

引用 2 楼 sky_walker85 的回复:

可以直接对hbase中的数据压缩，参考http://www.cnblogs.com/shitouer/p/hbase-table-alter-compression-type-and-snappy-compression-compare.html

多谢,经过测试确实可以. 另外问您一下,如果不是hbase的数据,那么如何修改呢?

曹宇 2014-10-30

打赏
举报

回复

引用 2 楼 sky_walker85 的回复:

可以直接对hbase中的数据压缩，参考http://www.cnblogs.com/shitouer/p/hbase-table-alter-compression-type-and-snappy-compression-compare.html

多谢,我试一试..

skyWalker_ONLY 2014-10-30

打赏
举报

回复

可以直接对hbase中的数据压缩，参考http://www.cnblogs.com/shitouer/p/hbase-table-alter-compression-type-and-snappy-compression-compare.html

HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。本课程详细介绍了从部署linux虚拟机环境到实现全分布式启动hdfs进程的全过程,是快速入门大数据的必经之路.

本节作为《Hadoop从入门到精通》专题的第四章第二节，将主要介绍如何在HDFS中进行数据压缩，有哪些可选的数据压缩方法等内容。数据压缩是一种将数据简化为更紧凑形式的机制，以节省存储空间并提高数据传输效率。 4.2...

HDFS高级--数据存储与管理

Hadoop 作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。...

Hadoop常用文件存储格式，Hadoop支持的压缩算法，HDFS压缩如何抉择，压缩算法比较，HDFS存储类型和存储策略，冷热温三阶段数据存储，HDFS中的内存存储支持，HDFS存储策略命令，HDFS使用懒持久化存储策略，BigData ...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章