HiveSQL函数优化原理
更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.