hdfs中已经存在的未压缩数据如何压缩它们
曹宇 2014-10-30 11:58:12 如题,目前主要是针对hbase的数据
目前没有太好的解决办法
有一下思路:
1,将数据拿出来用java代码加上压缩算法重新写入hdfs
但是这样的话,会破坏hdfs中的文件命名,也就是说无法控制block的命名 这样与hbase的meta信息不符合 会导致数据无法被hbase读取的问题
2,在hbase中query出这些数据,然后通过压缩算法重新入库.
这样的话虽然可以但是如果数据量比较大的话,十分影响效率以及占用时间
目前最理想的是 hadoop有什么命令可以直接对hdfs上的某个目录文件进行压缩 如类似: hadoop fs -compression {compressionType} {path}
不过这也只是想象中的,目前没找到合适的方法
还请大家想想方法.