又见智能商业 2022-05-08 22:44:00

HiveSQL函数优化原理

更多内容，欢迎观众公众号：livandata1、group by的计算原理：代码为：SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到，group by本身不是全局变量，任务会被分到各个map中进行分组，然后再在reduce中聚合。默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.