Hive表读取lzo.index文件

风雨天一 2018-04-11 08:37:15
hive表的建表语句中,已经指明了lzo的INPUTFORMAT ,如下:
STORED AS INPUTFORMAT
'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

也为lzo生成了索引
hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer /hdfs/path/to/file.lzo

但对应的hive表中select时,会把生成的lzo.index也当成数据文件读进来这是怎么回事呀?

hive表的目录下有XXX.lzo和XXX.lzo.index 2个文件, 从该表中select数据是,map数是2, 明显是lzo.index未生效。百度了很长时间,也未找到对应的案例和解决办法。。。
...全文
1074 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
「已注销」 2019-11-04
  • 打赏
  • 举报
回复 1
在进入hive shell后,SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat ; 解决了 引用https://ask.csdn.net/questions/773056?sort=id的评论,解决了问题,希望帮助后来有遇到类似问题的人
「已注销」 2019-10-17
  • 打赏
  • 举报
回复
引用 楼主 风雨天一 的回复:
hive表的建表语句中,已经指明了lzo的INPUTFORMAT ,如下: STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 也为lzo生成了索引 hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer /hdfs/path/to/file.lzo 但对应的hive表中select时,会把生成的lzo.index也当成数据文件读进来这是怎么回事呀? hive表的目录下有XXX.lzo和XXX.lzo.index 2个文件, 从该表中select数据是,map数是2, 明显是lzo.index未生效。百度了很长时间,也未找到对应的案例和解决办法。。。
楼主你解决了吗? 我也遇到类似问题了 请教!
风雨天一 2018-05-02
  • 打赏
  • 举报
回复
up一下,求大神指导

20,807

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧