apache kylin 如何支持对长字符串进行查询 [问题点数:20分]

Bbs1
本版专家分:0
结帖率 0%
Apache Kylin Cube 的存储
简单的说Cuboid的维度会映射为HBase的Rowkey,Cuboid的指标会映射为HBase的Value。                       Cube映射成HBase存储       如上图原始表所示:Hive表有两个维度列year和city,有一个指标列price。如上图预聚合表所示:我们具体要计算的是year和city这两个维度所有维度组合(即
kylin报错及解决方案总结
一、在build cube这一步中报错:Value not exists! <em>查询</em>该步的mr日志,提示 Not a valid value:2017-05-31,有两种可能 1.该错误是由于build过程中,所引用的维表数据发生了变化,使用该值<em>查询</em>维表,维表中不存在这条数据。 2.olap表关联了维表,但只使用了关联字段,如果olap表的code在维表里不存在,则会报错
字符串方法
-
Apache Kylin查询性能优化
更多干货分布式实战(干货)spring cloud 实战(干货)mybatis 实战(干货)spring boot 实战(干货)React 入门实战(干货)构建中小型互联网企业架构(干货)python 学习持续更新ElasticSearch 笔记kafka storm 实战 (干货)Apache Kylin<em>查询</em>性能优化Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQ...
Kylin系列-Apache Kylin中对上亿字符串的精确Count_Distinct示例
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对上亿<em>字符串</em>的精确去重)。 事实表 hive> desc test_t_pbs_uv_fact;OKad_id
Kylin分页查询
Kylin可通过两种方式实现分页<em>查询</em> 1.客户端界面: select * from test limit 10 offset 1 语句表示,从第二条开始,往后查10条 2.RestAPI 可参考官网实现:http://<em>kylin</em>.<em>apache</em>.org/docs/howto/howto_use_restapi.html#query
kylin 通过jdbc驱动进行sql查询
1、创建maven工程,添加依赖&amp;lt;!-- https://mvnrepository.com/artifact/org.<em>apache</em>.<em>kylin</em>/<em>kylin</em>-jdbc --&amp;gt; &amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.<em>apache</em>.<em>kylin</em>&amp;lt;/groupId&amp;gt; &amp;lt;artifactId&amp;gt;<em>kylin</em>-jdbc&amp;lt...
大数据分析界的“神兽”Apache Kylin有多牛?
http://www.tuicool.com/m/articles/Yjm6bq7本文是5月23日大数据杂谈群分享的内容。关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。实习编辑:Melody大家好,我是今天做微信分享的李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、
Kylin实践之使用Hive视图
在使用Kylin过程中有一些需求是hive原始表结构完成不了了的,这时候使用hive的视图可以增加灵活性并且满足各种需求,看我们是<em>如何</em>使用的吧
Kylin日期函数测试
目录 1、需求 2、函数调研 2.1 Date/time functions 2.2 Type conversion 3、测试 3.1 测试代码 3.2 测试结果 参考文章 1、需求 要在Kylin的sql中使用像date_sub类似的功能,date_sub的意义就是2018-08-08的前8天为2018-07-31。 2、函数调研 2.1 Date/time functi...
关于Kylin结果缓存的思考
由来Apache Kylin定位是大数据量的秒级SQL<em>查询</em>引擎,原理是通过预计算所有可能的维度组合存储在Hbase中,<em>查询</em>时解析SQL获取维度和度量信息,然后再从hbase中扫描获取数据返回,个人认为Kylin最强大的地方在于实现了SQL引擎,如果使用自定义的格式化<em>查询</em>语言也可以完成相应的数据访问操作,无非是指定<em>查询</em>的维度、度量、聚合函数、过滤条件,排序列等等。但是这种描述较之于SQL太弱了,SQL
开源数据可视化工具(For Apache Kylin)使用说明
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。 原生的Caravel并不<em>支持</em>Kylin,也不<em>支持</em>多表关联,经过好友Rocky和我的修改和调试,使得Caravel<em>支持</em>Kylin,同时也实现了Kylin中多表关联分析。 GitHub地址(基于cara
Apache Kylin使用总结
Apache Kylin是一款以预处理Cube来提高<em>查询</em>速度的OLAP引擎。 首先对维度表做个简单的介绍。 麒麟只<em>支持</em>星型模型,也就是说一个事实表加上多个维度表。维度表不存在支架型结构。维度表存放的大多是描述性字段,用于筛选。其实以SQL的角度来看就是group by/filter through where 的效果。对于一个有N个维度的Cube,可以构建2的N次方个Cuboid。 最开始对
kylin raw度量 需要注意的东西
大约就是 1.避免数据倾斜 2.设置参数 3.将大的segment变成小的segment<em>进行</em>操作 4.raw度量 在cuboid的大小不能超过1M 不然就bufferoverflowexeption 说是说以后会<em>进行</em>优化,然并卵 5.raw度量不<em>支持</em>where条件<em>查询</em> 链接:http://<em>kylin</em>.<em>apache</em>.org/blog/2016/05/29/raw-measure
使用api查询Kylin数据
1、安装pip必要包 pip install <em>kylin</em>py pip install sqlalchemy 2、 <em>查询</em>代码: import sqlalchemy as sa def <em>kylin</em>_query(conn_str,query_sql): #查看表(我没跑通) <em>kylin</em>_engine = sa.create_engine(conn_str) ky...
Kylin 与 Spark SQL相比,有哪些差异和优势
SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下:   > MPP [1] 的基本思路是增加机器来并行计算,从而提高<em>查询</em>速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合列式存储和一些索引,<em>查询</em>可以更快返回。要注意这里在线运算量并没有减小,8亿条记录还是要扫描一
Apache Kylin 维度优化指南
为什么需要维度优化因为如果不<em>进行</em>任何维度优化,直接将所有的维度放在一个聚集组里,Kylin就会计算所有的维度组合(cuboid)。比如,有12个维度,Kylin就会计算2的12次方即4096个cuboid,实际上<em>查询</em>可能用到的cuboid不到1000个,甚至更少。 如果对维度不<em>进行</em>优化,会造成集群计算和存储资源的浪费,也会影响cube的build时间和<em>查询</em>性能,所以我们需要<em>进行</em>cube的维度优化。...
Kylin 的优化以及使用总结
转:http://www.cnblogs.com/hark0623/p/5521006.html Apache Kylin对传统MOLAP的改进   计算Cube的存储代价以及计算代价都是比较大的, 传统OLAP的维度爆炸的问题Kylin也一样会遇到。 Kylin提供给用户一些优化措施,在一定程度上能降低维度爆炸的问题:   Cube 优化: Hierachy
Kylin系列-Apache Kylin优化–高级设置:聚合组(Aggregation Group)原理解析
本文转自<em>apache</em><em>kylin</em>公众号。 “随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维度(Mand
《Apache Kylin Web界面汉化》
注意:本教程以对approvalhistory(t表)和t_processapply(t2表)innerjoin为例,描述利用<em>kylin</em><em>进行</em>OLAP的过程。   1.登录页面 ①登录:http://168.168.207.3:7070/<em>kylin</em>(其中168.168.207.3为你所安装<em>kylin</em>主机的ip地址,7070为端口号,在浏览器上输入如上地址即可正确跳转到登录地:http://16
Apache kylin安装配置
<em>kylin</em>安装配置,<em>kylin</em> cube
Apache Kylin存储和查询的分片问题
本文主要介绍了Apache Kylin存储和<em>查询</em>的分片相关问题
Apache Kylin高级部分之使用Hive视图
本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图;而如果使用Hive视图,能够带来什么好处,解决什么样的问题;以及需要学会<em>如何</em>使用视图,使用视图有什么限制等等。 1.      为什么需要使用视图Kylin创建Cube的过程中使用Hive的表数据作为输入源。但是有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要<em>进行</em>处理,有些列的类型不满足需求,甚至
Apache Kylin
Apache Kylin Apache Kylin Apache Kylin Apache Kylin
kylin添加用户
<em>kylin</em>添加用户 本文主要参考:http://www.cnblogs.com/en-heng/p/5170876.html 1、首先需要编一个小程序来处理加密的问题: 下面是我的pom文件: junit junit 3.8.1 test
Apache Kylin 高基数维度处理 以及 其他优化
第一个问题:在Tableau中显示的度量值如果是SUM计算,那么在Hive中最好使用的字段类型为decimal(20,0),避免使用int以及bigint。 第二个问题:高基数维度的Cube在构建过程中报错,GC limite exceeded 以及java.lang.OutOfMemoryError: Java heap space,需要在~/conf/<em>kylin</em>_job_conf.xml中添...
基于 Druid 的 Apache Kylin 存储引擎实践
在2018年8月的Apache Kylin meetup@北京活动上,美团点评工程师做了关于使用 Druid 做为 Apache Kylin 存储引擎的实践,并更新了 Kylin 在美团点评的使用现状。 篇幅过长,完整资源地址https://www.slidestalk.com/s/KylinOnDruidInMeituan ...
Apache Kylin高级部分之JDBC访问方式
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具<em>进行</em>很好的集成。分析师们可以用他们最熟悉的工具来享受Kylin带来的快速。本章节介绍通过Java程序调用Kylin的JDBC接口访问Kylin的Cube数据。首先我们来看一下连接Kylin的URL格式为:jdbc:<em>kylin</em>://:/注:如果“ssl”为true话,那么上面的端口号应该为Kylin服务的HTTPS端口号。<em>kylin</em>_p
Apache Kylin在美团数十亿数据OLAP场景下的实践
本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。 美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据<em>进行</em>分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,<em>如何</em>将Kylin应用到实际场景中,以及目前的使用方式和现状。同时也
Apache Kylin安装部署
Apache Kylin安装部署Apache Kylin安装部署Apache Kylin安装部署
SQL中各种函数
#################### #各种各样的函数 #################### CREATE TABLE SampleMath (m NUMERIC (10,3), n INTEGER, p INTEGER); INSERT INTO SampleMath(m, n, p) VALUES (500, 0, NULL); INSERT INTO Samp...
【大数据与云计算】大数据多维分析引擎在魅族公司的实践
“ Apache Kylin是首个完全由中国团队设计开发,并贡献到Apache软件基金会(ASF)的顶级项目,开源一年左右的时间,已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分,拥有大量用户案例。 魅族大数据平台架构师赵天烁 在 8月13日的 【创客168】第7期:大数据平台架构及应用实践 和 9月22日的第三届互联网应用技术峰会上 <em>进行</em>了 “大数据多维分析引擎在魅族
Kylin介绍 (很有用)
转:http://blog.csdn.net/yu616568/article/details/48103415    Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于<em>支持</em>大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅<em>支持</em>hbase),这段时间对mondrian和<em>kylin</em>都<em>进行</em>了使用,...
Apache Kylin 精确去重指标优化历程
问题背景 优化1 将精确去重指标拆分HBase列族 优化2 移除不必要的toString避免bitmap deserialize 优化3 获取bitmap的字节长度时避免deserialize 优化4 无需上卷聚合的精确去重<em>查询</em>优化 总结 反思 相关Kylin JIRA 本文记录了我将Apache Kylin超高基数的精确去重指标<em>查询</em>提速数十倍的过程,大家有任何建议或者疑问欢迎讨论。...
Apache Kylin CDH版本安装部署
1   Kylin安装部署 1.1  Kylin安装步骤 l  下载Kylin安装包 登录http://www.<em>apache</em>.org/dyn/closer.cgi/<em>kylin</em>/<em>apache</em>-<em>kylin</em>-1.6.0/<em>apache</em>-<em>kylin</em>-1.6.0-cdh5.7-bin.tar.gz下载安装包 l  解压安装包 tar -zxvf <em>apache</em>-<em>kylin</em>-1.6.0-cdh5.7-b
Kylin性能调优记——业务技术两手抓
背景最近开始使用了新版本的Kylin,在此之前对于新版本的了解只是代码实现和一些简单的新功能测试,但是并没有导入实际场景的数据做分析和<em>查询</em>,线上Hadoop稳定之后,逐渐得将一些老需求往新的环境迁移,基于以前的调研,新版本(V2,版本为1.5.2)的Kylin提供了几个比较显著的功能和优化: 新的度量类型,包括TOPN、基于bitmap的精确distinct count和RAW。 自定义度量框架,用
Apache Kylin Tutorial 1.5
Apache Kylin Tutorial, 官方网站整理而来。 Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial
Kylin执行查询流程分析
Kylin基于MOLAP实现,<em>查询</em>的时候利用Calcite框架,从存储在Hbase的segment表(每一个segment对应着一个htable)获取数据,其实理论上就相当于使用Calcite<em>支持</em>SQL解析,数据从Hbase中读取,中间Kylin主要完成<em>如何</em>确定从Hbase中的哪些表读数据,<em>如何</em>读取数据,以及解析数据的格式。场景设置首先设想一种cube的场景:维度:A(cardinality=10)
《Apache Kylin处理分表时间戳更新机制》
1、生产场景 从Kafka获得的数据导入至HBase,<em>kylin</em> java api 需要依据HBase中数据的RowKey及时间戳,refresh或者build相应的cube。 2、问题描述 新增数据自然没有问题,RowKey、时间戳直接拿来用,但是如果执行的是更新、修改操作:主表没问题,分表有问题。由于Kylin在建cube的时候是以时间字段作为分区,该时间字段必为主表的时间字段,
Kylin的概述
Kylin的诞生、实现亚秒级<em>查询</em>的方式、优点
全网最详细Apache Kylin1.5安装(单节点)和测试案例
http://m.blog.itpub.net/30089851/viewspace-2121221/ 1.版本 Hadoop2.7.2+HBase1.1.5+Hive2.0.0 <em>kylin</em>-1.5.1Kylin1.5 (<em>apache</em>-<em>kylin</em>-1.5.1-HBase1.1.3-bin.tar.gz) 2.Hadoop环境编译以<em>支持</em>Snappy解压缩库 重新编译
kylin的cube原理
https://blog.bcmeng.com/post/<em>kylin</em>-cube.html
如何用Apache Kylin让Hive表查询提速千百倍
<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍
(转)给大数据分析师的一双大礼:Apache Kylin和Superset
转自分析师的挑战在大数据时代,使用传统数据处理方式已经无法满足企业大规模数据的增长,而人工智能和IoT时代的到来让处理超大规模数据,解读超大规模数据的需求更加迫在眉睫。分析和理解超大规模数据集就成为这些企业要解决的当务之急。一重礼: Apache Kylin 开源OLAP on Hadoop引擎现代企业使用联机分析处理 (OLAP) 技术来分析数据,生成报表,从而帮助业务人员制订商务决策。随着大数...
使用Kylin导入JDBC数据源遇到的问题
一、目标: 直接使用Mysql数据作为Kylin数据源 二、参考官方配置 JDBC 数据源 准备 Sqoop Kylin 使用 Apache Sqoop 从关系型数据库加载数据到 HDFS。在与 Kylin 同一个机器上下载并安装最新版本的 Sqoop。我们使用 SQOOP_HOME 环境变量指出在本指南中 Sqoop 的安装路径。 准备 JDBC driver 需要下载您数据库的 J...
【开发实践】为什么美团开发Kylin On Druid(上)
作者:敏丞   在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有<em>支持</em>在超大数据上<em>进行</em>快速<em>查询</em>的能力。在一些对大数据分析非常依赖的企业,往往同时运行着 Kylin 和 Druid 两套系统,服务于不同的业务场景。   在2018年8月的 Apache Kylin Meetup 活动上,美团点评技术团队...
Apache Kylin集群部署
笔者所在的公司,目前打算在测试、生产环境上面部署Apache Kylin集群,注意以下几点: 1、<em>kylin</em>.server.mode=all,job,query (这个决定了当前<em>kylin</em>节点所担任的角色,一个Kylin集群只能有一台作业引擎,也即只能有一台节点的这个配置项目为all或者job , 可以有多台query节点) 2、<em>kylin</em>.rest.servers=10.17
Apache Kylin 2.0:从Hadoop上的OLAP 引擎到实时数据仓库 [session]
Strata Data Conference早期门票优惠本周五即将截止! 还有一天,欢迎大家踊跃报名! 点击阅读原文可登录会议网站,尽快报名以确定留位! Apache Kylin 2.0:从Hadoop上的OLAP 引擎到实时数据仓库 讲师:Dong Li (Kyligence) 11:15–11:55 Saturday, 2017-07-15 数据工程和架构 (Data
基于Apache Kylin大数据多维查询分析平台实践(已稳定运行2年多)
背景:B公司,前美纳斯上市公司,上亿App用户,近年来数据呈爆发式增长,每天行为日志达10T,原有的hive+mysql(<em>查询</em>太慢,存储太大),hive+impala(界面不友好,需要写sql语言,门槛较高,不方便运营人员<em>查询</em>数据,对多维数据<em>查询</em>较慢),已经满足不了当下需求,急需要一个能<em>支持</em>大规模数据<em>查询</em>,速度又快,使用零门槛的<em>查询</em>服务,几套方案选择后,最终选择了Kylin,主要看重的是它<em>支持</em>大规...
基于Apache Kylin 构建大数据分析平台
基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台
Apache kylin 原理和架构
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 1.基本原理 <em>kylin</em>的核心思想是预计算,理论基础是:以空间换时间。即多多维分析可能用到的度量<em>进行</em>预计算,将计算好的结果保存成Cube并存储到hbase中,供<em>查询</em>时直接访问。
Apache Kylin 添加登录用户和密码(修改登录名和密码)
一、准备工作: 提示:如果想要跳过第一步,直接进入第二步添加或者是修改用户名和密码。 请使用该加密工具(jar包):https://download.csdn.net/download/shtdayu/10812371 Step1.创建一个maven项目 <em>kylin</em> Step2.添加依赖 &amp;lt;dependency&amp;gt;     &amp;lt;groupId&amp;gt;org.springfr...
Apache Kylin原理学习之Cube的创建与Build
原文地址:http://lxw1234.com/archives/2016/05/655.htm Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来源ID、浏览器ID
KYLIN 例行调度 自动BULID
KYLIN提供RESTFUL 接口,通过请求&crontab 可实现例行调度 参考url: http://<em>kylin</em>.<em>apache</em>.org/docs15/howto/howto_use_restapi.html#get-job-status 实现步骤: 1、shell脚本加入下面代码实现BULID请求 java -jar KylinInterface.jar CUBE
在Windows下搭建kylin(麒麟)运行环境
刚来公司实习,所在的项目组是做<em>kylin</em>的,仅以此文记录下<em>kylin</em>开发环境的搭建。 由于<em>kylin</em>是运行在linux系统上的,而公司给我配的电脑是Windows的,所以在这里讲的是Windows下配置运行环境。 <em>kylin</em>是建立在hadoop之上的,所以依赖于Hadoop。 step1、下载配置JDK step2、下载配置maven step3、申请一个云主机 可以选择阿里巴巴付费的...
Apache Kylin安装配置及使用示例
转子:http://blog.csdn.net/xgjianstart/article/details/53289870 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(
【Apache Kylin 】大数据下的OLAP解决方案(作业构建)
Apache Kylin™提供Hadoop之上的SQL<em>查询</em>接口及多维分析能力以<em>支持</em>超大规模数据,能在亚秒内<em>查询</em>巨大的Hive表,其核心思想采用了预计算。本文将对Cube预计算构建详细分析,基于Kylin-1.5.4.1版本。
Kylin系列-大数据分析界的“神兽”Apache Kylin有多牛?
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么?   在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平
hive 与 kylin的搭建
hive安装 前言 由于<em>kylin</em>现在最高<em>支持</em>的hive版本为1.2.1,所以只能安装此版本,不能安装hive2.0。使用hive需要事先安装好ant,具体安装过程不<em>进行</em>介绍,还需要一个mysql来保存hive的元数据。 编译hive 编译hive一定要保证网络通畅,编译过程中会出现个别的包无法下载,导致错误,换个时间或者调整网络环境,从新编译,就可以了 解压源码包。<em>进行</em>编译。
给大数据分析师的一双大礼:Apache Kylin和Superset
在大数据时代,使用传统数据处理方式已经无法满足企业大规模数据的增长,而人工智能和IoT时代的到来让处理超大规模数据,解读超大规模数据的需求更加迫在眉睫。
Kylin 之对大数据量的多维分析
转 :http://tech.meiyou.com/?p=97 一、Kylin简介 Apache Kylin(http://<em>kylin</em>.<em>apache</em>.org/cn/)是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 1、<em>kylin</em>的总体架构 Ky
Kylin系列-分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
关键字:olap、Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,<em>查询</em>引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求
Apache Kylin在绿城客户画像系统中的实践
前言作为国内知名的房地产开发商,绿城经过24年的发展,已为全国25万户、80万人营造了美丽家园,并将以“理想生活综合服务提供商”为目标,持续为客户营造高品质的房产品和生活服务。2017年,绿城理想生活集团成立,围绕客户全生活链、房屋全生命周期,为客户提供从买房子到房屋的保养维护,再到业主全方位的生活服务。为此构建了绿城+App生活服务平台、房产营销数字化平台及房屋4S服务平台,这些系统的构建为业主
kylin创建cube时的步骤及一些notes
1.创建工程2.同步hive表定义(四种)3.创建Data Modeljoin多表,定义了星型模型;join操作包括:left join和inner join;创建的model可以被多个cube使用;--&amp;gt;demensions可以来自事实表和维表;Meassues必须来自事实表;--&amp;gt;settings可以设置构建cube时的分割列(必须为DATE类型或者TIMESTAMP)4.创建Cu...
Kylin 大数据时代的OLAP利器
Olap简介 OLAP的历史与基本概念 Olap全称为在线联机分析应用,是一种对于多维数据分析<em>查询</em>的解决方案。 典型的Olap应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。 最早的Olap<em>查询</em>工具是发布于1970年的Express,然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出,伴随而来的是著名的“twelve laws of onli
MAC上安装使用KYLIN(OLAP工具)完整版
转载请尊重原著:_木子_简单_@CSDN  QQ754768903@qq.com   软件版本: hadoop-2.5.0-cdh5.3.2 hive-0.13.1-cdh5.3.2 hbase-0.98.6-cdh5.3.10 <em>apache</em>-<em>kylin</em>-1.2-bin 一、HADOOP单机安装 1、下载hado
superset和kylin搭配查不出数据的处理
公司使用superset和<em>kylin</em>的搭配已经有一段时间了,关于superset和<em>kylin</em>搭配查不出数据的处理需要重点记录一下,避免下次忘记 1、count关键字问题 count字段是<em>kylin</em>的关键字,在superset中,简单的方法是建议在Edit sqla Table中,将count改为count1就ok. 如果经常使用count字段,建议修改py<em>kylin</em>插件,实现对count
Kylin 2.0升级总结
文章转载,原文地址:https://blog.bcmeng.com/post/<em>kylin</em>-upgrade.html #6-给<em>kylin</em>社区的建议 引用于个人自查、学习Kylin 2.0的升级节奏 升级的大原则 升级的目标 1 Kylin 2.0 升级流程 1.1 Kylin 2.0 代码合入 1.2 配置更新和梳理 1.3 兼容性测试 1.4 Cube构建测试 1.5 Cube
kylin运行sql报错
Caused by: org.<em>apache</em>.hadoop.hbase.ipc.RemoteWithExtrasException(org.<em>apache</em>.hadoop.hbase.exceptions.UnknownProtocolException): org.<em>apache</em>.hadoop.hbase.exceptions.Unkno wnProtocolException: No register
kylin集群Nginx负载均衡
Nginx负载均衡1, Nginx负载均衡简介跨多个应用程序实例的负载平衡是优化资源利用率,最大化吞吐量,减少延迟以及确保容错配置的常用技术。可以使用nginx作为非常高效的HTTP负载均衡器,将流量分配给多个应用程序服务器,并通过nginx提高Web应用程序的性能,可伸缩性和可靠性。2, Nginx负载均衡机制nginx<em>支持</em>以下负载均衡机制(或方法):循环 - 对应用程序服务器的请求以循环方式分
kylin使用过程中需要注意的点
一、维表 事实表中多个维度字段不能关联同一张维表。如果关联同一张表的情况,可通过视图区别开。 二、维表字段    不同维表中的字段不能同名,建议加上表名做前缀。字段的中文描述应区分开,比如city_name,根据字段的不同用途可分别命名为所在地城市、访问地城市。     对于时间维表,配置cube 时 选定的字段命名必须 统一:日 的叫 DATE  字段, 周是SUN_DT
Apache Kylin权威指南
Apache <em>kylin</em>的权威指南 第1章 Apache Kylin概述 第2章 快速入门 第3章 增量构建 第4章 流式构建 第5章 <em>查询</em>和可视化 第6章 Cube优化 第7章 应用案例分析 第8章 扩展Apache Kylin 第9章 Apache Kylin的企业级功能 第10章 运维管理 第11章 参与开源 第12章 Apache Kylin的未来
kylin官方给出的优化 以及各个步骤容易出现的问题
1.使用和hive相同的partition cloumn 关闭自动合并设置 hive.merge.mapfiles false Disable Hive's auto merge 2.重新分布中间表 作用:防止不均匀 默认是100W一个文件,你可以通过conf/<em>kylin</em>.properties <em>kylin</em>.job.mapreduce.mapper.input.rows=500000这
Kylin查询性能低下原因分析
在处理指数行情数据时(IDXD),我遇到一个KYLIN性能<em>查询</em>低下的问题,非常奇怪。经过一番研究发现了其中的原因并顺利解决: 症状: select count(*) from sensitop.idxd where ticker = ‘000300’ and tradedate between ‘2016-01-01’ and ‘2016-07-01'很快,不到一秒 select * from s...
Kylin单机集成CDH
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目,是第一个由中国团队完整贡献到Apache的顶级项目。  分享之前我还是要推荐下我自己创建的大数据学习资料分享群 232840209,不
分布式大数据多维数据分析(olap)引擎kylin
<em>kylin</em>基本的安装和使用
关于kylin的安装(主要是为了BI开发,kylin支持odbc)
首先说说<em>kylin</em>是做什么的吧(这一段简洁,就用官网上的来说明吧,官网地址http://<em>kylin</em>.<em>apache</em>.org/cn/)     Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。(具体的可以查看官网)
Rest接口操作Kylin
由于官方网站的介绍中,涉及的Rest接口较少,现通过官方提供在github上的源码包,使用一些其他实用的Rest接口。 找到Kylin Rest源码:https://github.com/<em>apache</em>/<em>kylin</em>/tree/master/server-base 到org.<em>apache</em>.<em>kylin</em>.rest.controller目录下查找对应的controller类 例
OLAP 玩转KYLIN 步七 官方案列实战之创建Cube之设计度量
紧接上一节,我们继续来看Cube创建的又一关键点,设计度量。 进入度量添加界面,Kylin默认会为我们创建一个Count(1)的度量,避免不必要的麻烦,不要对其做修改或删除。如图: 点击上图中的+Measure便可以添加我们自己的度量。 Kylin<em>支持</em>的度量有:SUM、MIN、MAX、COUNT、COUNT DISTINCT、TOP_N、RAW等。选择需要的度量 类型,然后再选择适...
kylin问题总结
点击加载hive表出现如下异常: java.lang.NoClassDefFoundError: org/<em>apache</em>/hadoop/hive/cli/CliSessionState java.lang.NoClassDefFoundError: org/<em>apache</em>/hadoop/hive/ql/session/SessionState 解决:将hive lib文件夹下的lib拷贝
Apache Kylin技术文档(包括权威指南)
网上收集的一些Apache Kylin技术文档,包括Apache Kylin权威指南
apache kylin 权威指南 带目录
<em>apache</em> <em>kylin</em> 权威指南 带目录 <em>apache</em> <em>kylin</em> 权威指南 带目录
Apache Kylin - Tuning - Dong Li
Apache Kylin - Tuning - Dong Li;Apache Kylin - Tuning - Dong Li
全网最详细Apache Kylin1.5安装(单节点)和测试案例 ---> 现在看来 kylin 需要 安装到Hadoop Master 节点上
请参考原作者 ,谢 ,http://m.blog.itpub.net/30089851/viewspace-2121221/ 1.版本 Hadoop2.7.2+HBase1.1.5+Hive2.0.0 <em>kylin</em>-1.5.1Kylin1.5 (<em>apache</em>-<em>kylin</em>-1.5.1-HBase1.1.3-bin.tar.gz) 2.Hadoop环境编译以<em>支持</em>Snappy解
Kylin源码 二次开发
-
通过Excel访问Kylin
1 通过Excel访问Kylin 1.1 Power Query下载 从微软官网下载和安装Power Query,如图18-4所示。下载地址: https://www.microsoft.com/zh-CN/download/details.aspx?id=39379 点击下载 点击下面的Next,页面上开始下载PowerQuery. 1.2 安装Po...
Kylin中看不到hive库表但是hive命令行可以看到
hive环境迁移后发现在Kylin中load data source的时候找不到hive中的数据库和表了,但是执行hive命令<em>查询</em>库表及其数据都没有问题。解决方法如下:<em>kylin</em>.properties中的配置项:<em>kylin</em>.env.hadoop-conf-dir=/etc/hadoop/conf该配置表示在/etc/hadoop/conf目录下要存在所有大数据平台的配置文件,这里检查hive-si...
docker安装搭建kylin
1.拉取docker镜像(注意:这个<em>kylin</em>是0.7.2版本的,集成了ambari1.7和hdp Hadoop2.2,镜像大约6G)   docker pull sequenceiq/<em>kylin</em>:0.7.2   拉取完成镜像,通过 docker iamges 查看sequenceiq/<em>kylin</em>:0.7.2镜像是否成功   2.启动<em>kylin</em>镜像 1) 首先执行以下docker命令...
Kylin 的架构和原理
1. Kylin的设计思想1.1 与其他开源大数据框架设计思想的对比 解决大数据不断增长中高速<em>查询</em>的能力。 怎么保证随着数据量的增长,怎么保证在未来的数据<em>查询</em>性能不受影响。 从算法角度讲,现有的大数据框架可分为以下几类: 1.并行计算:mapreduce、spark 2.列式存储:parquet,节省IO 3.(倒排)索引:节省IO 这三种在集群规模不变的情况下,随着数据的无限增长,查
kylin维度优化指南
先说一下维度表需要遵循的规范: 维表需要有code和name,比如:city_code city_namecode字段的类型最好使用整数,这样可以加快<em>kylin</em>的构建速度和<em>查询</em>速度如果维表是层级维表,比如是国家、省份、城市的层级需要对每个层级都要有对应的code和name,比如:country_code country_name province_code province_name
Apache Kylin的入门安装
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 从官网的介绍来看Kylin是一个OLAP的数据<em>查询</em>引擎,其特点就是快。公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传
Apache Kudu:用于实时分析的最佳用例
原文所有企业都有随着时间的推移贬值的资产。直观地说,延长使用设备的使用会降低其价值,我们在日常生活中看到这些与我们开车的汽车或我们销售的旧电子产品。然而,数据通常不被视为随时间失去价值的资产。那不对。虽然可能不是会计部门可以支付的费用,但是在可能导致更好的行动过程的时间段内,业务数据将失去价值。无论数据是否告诉您<em>进行</em>预测性维护,利用市场机会,甚至防止欺诈,机会对数据采取行动的窗口都可能很小。这就是为
基于kylin大数据多维分析功能整合
一、            思路 大数据OLAP目前主要有ROLAP和MOLAP。目前我们已采用的ROLAP方式组建数据平台,提供了更大的操作灵活性,同时在海量数据的情况下分析计算缓慢。MOLAP 能降低分析和数据库的耦合性,提高处理效率和改善分工,但降低操作灵活性和增加ETL的复杂性。 我们将采用的建模做立方体(MOLAP)的方式改进平台,目前也面临着ETL复杂性问题。 面对MOLAP,大
OLAP引擎——Kylin介绍
最近一直在学习和使用<em>kylin</em>,分享一下学习的收获以及对<em>kylin</em>的理解~
Kylin的Hierarchies,Derived维度方面配置优化
Hierarchies: 理论上对于N维度,我们可以<em>进行</em>2的N次方的维度组合。然而对于一些维度的组合来说,有时是没有必要的。例如,如果我们有三个维度:continent, country, city,在hierarchies中,最大的维度排在最前面。当使用下钻分析时,我们仅仅需要下面的三个维度的组合: group by continent group by continent, co
Apache Kylin在电信运营商的实践和案例分享
名为《开源项目的正确打开方式》,文章中把开源项目的研究分成了三个阶段:选、用、修改。 一是怎么选开源项目,包括满足业务需求,具备运维能力,项目基本成熟,团队靠谱,社区活跃等等; 二是怎么用开源项目,包括深入研究仔细测试,做好应急以防万一,小心应用灰度发布,结合业务场景做好参数调整等等; 三是怎么修改开源项目,就是保持纯洁加以包装,发明适合自己的轮子。 目前我们团队处于第二阶段,我希
《基于Apache Kylin构建大数据分析平台》
经过出版社几个月的辛苦努力,《基于Apache Kylin构建大数据分析平台》终于与读者见面了。现在京东,当当,淘宝,亚马逊等各大网站以及书店已经开始发售,非常感谢很多对Apache Kylin感兴趣的朋友们的<em>支持</em>和鼓励,希望此书可以帮助读者朋友们更好更快的进入Apache Kylin的世界,也希望读者朋友们多提宝贵意见,这样我会更好地完善此书。
apache设置中文支持&长文件名显示
<em>apache</em>版本:httpd-2.4 redhat/centos 7 默认配置好后,访问自定义的网站,a.中文文件名乱码,b.由于目录名过长,被截断,后面就跟着乱码, 1.修改页面默认语言编码        #             ....             IndexOptions Charset=UTF-8   #     2.修改目录文件名不要被截断     打开
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 ios获取idfa server的安全控制模型是什么 sql android title搜索 ios 动态修改约束 如何坚持学习java python字符串教程
我们是很有底线的