我理解是这样的: Hive的插入是针对数据文件的写入,其中包括数据的分区处理。 如果你的数据没有跟目标表产生关联,那么写入的时候由于已经有的数据在多个分区上,那么写入的时候应该判断属于哪个分区。 再分别写入,增加了判断和寻找写入路径的过程,也就增加了时间。 还有数据量很大,那么肯定会占用很多的节点,那么写入数据的时候可能会导致写入的比较分散,造成网络传输的负担。 这要具体看你的数据是什么情况,比如你的数据非常集中,一次写入一个或几个分区,那应该就不会有多大差别。 如果你的插入逻辑还有些与现有的数据有关联关系,比如判断是否存在等等,那么就肯定会有另外开销了。
20,808
社区成员
4,690
社区内容
加载中
试试用AI创作助手写篇文章吧