Hive表读取lzo.index文件
风雨天一 2018-04-11 08:37:15 hive表的建表语句中,已经指明了lzo的INPUTFORMAT ,如下:
STORED AS INPUTFORMAT
'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
也为lzo生成了索引
hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer /hdfs/path/to/file.lzo
但对应的hive表中select时,会把生成的lzo.index也当成数据文件读进来这是怎么回事呀?
hive表的目录下有XXX.lzo和XXX.lzo.index 2个文件, 从该表中select数据是,map数是2, 明显是lzo.index未生效。百度了很长时间,也未找到对应的案例和解决办法。。。