Hadoop-Impala优化十大指导原则和最佳实践
1.1 Hadoop-Impala优化十大指导原则和最佳实践
以下是性能准则和最佳做法。您可以使用在规划过程中实验,和Hadoop集群一起进行impala的性能调整。所有这些信息也可在文档的其他地方更详细的impala文档;以下是优化的方法措施,强调优化调优技术提供最高的投资回报
1) 选择适当的数据文件格式
2) 避免数据摄入过程,产生许多小的文件
3) 基于实际数据量选择分区粒度
4) 使用最小的适当的整数类型进行分区键列
5) 选择一个合适的block大小
6) 收集性能关键或高容量连接查询中使用的所有表的统计数据
7) 尽量减少将结果发送给客户端的开销
8) 请确认您的查询以一种有效的逻辑方式进行计划
9) 验证查询的性能特征
10) 使用适当的操作系统设置
详情见博客内容
http://blog.csdn.net/seeyouc/article/details/53435825