KYLIN cube优化相关的

wppwpp1 2018-08-14 05:00:25

最近在研究 KYlin 优化的问题，想问个问题，

Kylin中建Cube时使用了Mandatory Dimensions,Joint Dimensions时，比如有维度A、B、C、D,E 我建的维度是 Mandatory Dimensions 为 A,B,
Joint Dimensions 为C,D,E,我查询的sql是
1, select C, count(C) from tableinfo where A=1 AND B= 2 group by c
2, select D, count(D) from tableinfo where A=1 AND B= 2 group by D
2, select E, count(E) from tableinfo where A=1 AND B= 2 group by E

这样能命中相应cuboid吗？或者有更好的推荐吗？(A,B一般都是写在where条件里,不放在group by后面)

...全文

256 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

ha757204887 2018-08-30

打赏
举报

回复

必要维度：
用户有时会对某一个或几个维度特别感兴趣，所有的查询请求中都存在group by这个维度，那么这个维度就被称为必要维度，只有包含此维度的Cuboid会被生成(如图10)。假设维度A是必要维度，那么生成的Cube则如图所示，维度数目从16变为9。

联合维度

用户有时并不关心维度之间各种细节的组合方式，例如用户的查询语句中仅仅会出现group by A, B, C，而不会出现group by A, B或者group by C等等这些细化的维度组合。这一类问题就是联合维度所解决的问题。例如将维度A、B和C定义为联合维度，Kylin就仅仅会构建Cuboid ABC，而Cuboid AB、BC、A等等Cuboid都不会被生成。最终的Cube结果如图5所示，Cuboid数目从16减少到4。

所以少年，修改你的定义把

Kylin是一种MOLAP的数据分析引擎。最早由eBay中国研发中心贡献给Apache基金。 Kylin特点：数据源和模型：主要支持Hive、Kafka 构建引擎：早期支持MapReduce计算引擎，新版本支持Spark、Flink计算引擎。除了全量构建外，基于时间的分区特性，支持增量构建。存储引擎：构建好的Cube以Key-Value形式存储在HBase中，通过优化Rowkey加速查询。每一种维度的排列组合计算结果被保存为一个物化视图，叫做Cuboid. 优化算法:Cube本身是空间换时间，也会根据算法，剪枝优化掉一些多余的Cuboid，需求平衡。访问接口：支持标准SQL接口，可以对接Zeppelin、Tableau等BI工具。SQL通过查询引擎，可以被路由到对应的Cuboid上。

近几年，ApacheKylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势，通过对超大规模数据集进行预计算，实现秒级甚至亚秒级的查询响应时间，同时提供标准SQL接口。目前，ApacheKylin已在全球范围得到了广泛应用，如百度、美团、今日头条、eBay等，支撑着单个业务上万亿规模的数据查询业务。在超高性能的背后，Cube是至关重要的核心。一个优化得当的Cube既能满足高速查询的需要，又能节省集群资源。本文将从多个方面入手，介绍如何通过优化Cube提升系统性能。在传统多维分析就有多维立方体（OLAPCube）的概念。Apache

(1)\1、离线；目录中文件数:134个 ├─01-kylincube优化-确定cuboid数量与cubesize.mp4 ├─01-今日课程内容和课程目标.mp4 ├─01-今日课程目标与课程内容介绍(1).mp4 ├─01-今日课程目标与课程内容介绍.mp4 ├─01-课程目标.mp4 ├─01-课程目标与课程内容介绍.mp4 ├─01今日课程目标与课程内容介绍.mp4 ├─02-cube优化-衍生维度.avi ├─02-kylin简介以及应用场景.avi ├─02-数仓维度建模设计.avi ├─02-生成明细表数据.avi ├─02-电商行业与电商系统介绍.avi ├─02-网站流量日志获取方式介绍.mp4 ├─02-订单时间维度指标需求分析.avi ├─03-cube优化-聚合组.avi ├─03-kylin的优势以及数据流程图.avi ├─03-使用kettle生成日期维度数据.avi ├─03-埋点js自定义采集原理分析.mp4 ├─03-数仓为什么分层.avi ├─03-数仓项目整体技术架构介绍.avi ├─03-流量分析常见指标-基础级-复合级指标.avi ├─04-c

Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务，目前有100多台 Kylin实例；有800多个Cube；有300多T的单副本存储；在贝壳Kylin 有两套HBase集群，30多个节点，Kylin每天的查询量最高2000+万。我们负责Kylin同事张如松在2018年KylinMeetup上分享过Kylin在贝壳的实践，当时每天最高请求量是 1

Apache Kylin?是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。? Apache Kylin?令使用者仅需三步，即可实现超大数据集上的亚秒级查询。定义数据集上的一个星形或雪花形模型在定义的数据表上构建cube使用标准SQL通过ODBC、JDBC或RESTFUL API进行查询，仅需亚秒级响应时间即可获得查询结果 Kylin提供与多种数据可视化工具的整合能力，如Tableau，PowerBI等，令用户可以使用BI工具对Hadoop数据进行分析。本套教程主要对Kylin的基础理论的讲解，涉及到各种重要概念、原理和API的用法，并对Kylin优化进行深入剖析。通过理论和实际的紧密结合，可以使学员对Kylin有充分的认识和理解，对大数据技术有更全面的了解，为日后成长为架构师打下基础。

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章