hive 在insert 之后生成了小文件,无法merge

wscxyok 2017-05-18 10:01:31
场景:
对每天的业务数据进行增量归档,即对hive 现有的执行 insert into table 操作,hive 每次insert 不会将文件append 到之前的文件中,而是新生成了一个问题,例如:
插入之前文件:000000_0
插入之后文件:000000_0
000000_0_copy_1
多次插入会更多。
官方提供了关于如何merge 这些小文件的配置如下:
 <property>
<name>hive.merge.mapfiles</name>
<value>true</value>
</property>
<property>
<name>hive.merge.mapredfiles</name>
<value>true</value>
</property>
<property>
<name>hive.merge.smallfiles.avgsize</name>
<value>134217728</value>
</property>
<property>

但依然没有起到作用,文件个数还是在继续累加
求指导是否还有其他的配置?
...全文
6790 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
Tomas_Rosicky 2018-02-06
  • 打赏
  • 举报
回复
建一个PK表保存每天新数据的PK,每次insert前比较,PK存在的删除旧数据,insert新数据
嘿儿呀 2017-07-08
  • 打赏
  • 举报
回复
解决了么?同求

7,388

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 数据仓库
社区管理员
  • 数据仓库
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧