apache kylin 如何支持对长字符串进行查询 [问题点数:20分]

Bbs1
本版专家分:0
结帖率 0%
Kylin性能调优记——业务技术两手抓
背景最近开始使用了新版本的Kylin,在此之前对于新版本的了解只是代码实现和一些简单的新功能测试,但是并没有导入实际场景的数据做分析和<em>查询</em>,线上Hadoop稳定之后,逐渐得将一些老需求往新的环境迁移,基于以前的调研,新版本(V2,版本为1.5.2)的Kylin提供了几个比较显著的功能和优化: 新的度量类型,包括TOPN、基于bitmap的精确distinct count和RAW。 自定义度量框架,用
Apache Kylin查询性能优化
更多干货分布式实战(干货)spring cloud 实战(干货)mybatis 实战(干货)spring boot 实战(干货)React 入门实战(干货)构建中小型互联网企业架构(干货)python 学习持续更新ElasticSearch 笔记kafka storm 实战 (干货)Apache Kylin<em>查询</em>性能优化Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQ...
Kylin实践之使用Hive视图
在使用Kylin过程中有一些需求是hive原始表结构完成不了了的,这时候使用hive的视图可以增加灵活性并且满足各种需求,看我们是<em>如何</em>使用的吧
kylin 通过jdbc驱动进行sql查询
1、创建maven工程,添加依赖&amp;lt;!-- https://mvnrepository.com/artifact/org.<em>apache</em>.<em>kylin</em>/<em>kylin</em>-jdbc --&amp;gt; &amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.<em>apache</em>.<em>kylin</em>&amp;lt;/groupId&amp;gt; &amp;lt;artifactId&amp;gt;<em>kylin</em>-jdbc&amp;lt...
大数据分析界的“神兽”Apache Kylin有多牛?
http://www.tuicool.com/m/articles/Yjm6bq7本文是5月23日大数据杂谈群分享的内容。关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。实习编辑:Melody大家好,我是今天做微信分享的李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、
开源数据可视化工具(For Apache Kylin)使用说明
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。 原生的Caravel并不<em>支持</em>Kylin,也不<em>支持</em>多表关联,经过好友Rocky和我的修改和调试,使得Caravel<em>支持</em>Kylin,同时也实现了Kylin中多表关联分析。 GitHub地址(基于cara
关于Kylin结果缓存的思考
由来Apache Kylin定位是大数据量的秒级SQL<em>查询</em>引擎,原理是通过预计算所有可能的维度组合存储在Hbase中,<em>查询</em>时解析SQL获取维度和度量信息,然后再从hbase中扫描获取数据返回,个人认为Kylin最强大的地方在于实现了SQL引擎,如果使用自定义的格式化<em>查询</em>语言也可以完成相应的数据访问操作,无非是指定<em>查询</em>的维度、度量、聚合函数、过滤条件,排序列等等。但是这种描述较之于SQL太弱了,SQL
Apache Kylin存储和查询的分片问题
本文主要介绍了Apache Kylin存储和<em>查询</em>的分片相关问题
Kylin分页查询
Kylin可通过两种方式实现分页<em>查询</em> 1.客户端界面: select * from test limit 10 offset 1 语句表示,从第二条开始,往后查10条 2.RestAPI 可参考官网实现:http://<em>kylin</em>.<em>apache</em>.org/docs/howto/howto_use_restapi.html#query
Apache Kylin使用总结
Apache Kylin是一款以预处理Cube来提高<em>查询</em>速度的OLAP引擎。 首先对维度表做个简单的介绍。 麒麟只<em>支持</em>星型模型,也就是说一个事实表加上多个维度表。维度表不存在支架型结构。维度表存放的大多是描述性字段,用于筛选。其实以SQL的角度来看就是group by/filter through where 的效果。对于一个有N个维度的Cube,可以构建2的N次方个Cuboid。 最开始对
Kylin日期函数测试
目录 1、需求 2、函数调研 2.1 Date/time functions 2.2 Type conversion 3、测试 3.1 测试代码 3.2 测试结果 参考文章 1、需求 要在Kylin的sql中使用像date_sub类似的功能,date_sub的意义就是2018-08-08的前8天为2018-07-31。 2、函数调研 2.1 Date/time functi...
Kylin 与 Spark SQL相比,有哪些差异和优势
SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下:   > MPP [1] 的基本思路是增加机器来并行计算,从而提高<em>查询</em>速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合列式存储和一些索引,<em>查询</em>可以更快返回。要注意这里在线运算量并没有减小,8亿条记录还是要扫描一
Kylin系列-Apache Kylin中对上亿字符串的精确Count_Distinct示例
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对上亿<em>字符串</em>的精确去重)。 事实表 hive> desc test_t_pbs_uv_fact;OKad_id
《Apache Kylin Web界面汉化》
注意:本教程以对approvalhistory(t表)和t_processapply(t2表)innerjoin为例,描述利用<em>kylin</em><em>进行</em>OLAP的过程。   1.登录页面 ①登录:http://168.168.207.3:7070/<em>kylin</em>(其中168.168.207.3为你所安装<em>kylin</em>主机的ip地址,7070为端口号,在浏览器上输入如上地址即可正确跳转到登录地:http://16
Apache Kylin 精确去重指标优化历程
问题背景 优化1 将精确去重指标拆分HBase列族 优化2 移除不必要的toString避免bitmap deserialize 优化3 获取bitmap的字节长度时避免deserialize 优化4 无需上卷聚合的精确去重<em>查询</em>优化 总结 反思 相关Kylin JIRA 本文记录了我将Apache Kylin超高基数的精确去重指标<em>查询</em>提速数十倍的过程,大家有任何建议或者疑问欢迎讨论。...
kylin添加用户
<em>kylin</em>添加用户 本文主要参考:http://www.cnblogs.com/en-heng/p/5170876.html 1、首先需要编一个小程序来处理加密的问题: 下面是我的pom文件: junit junit 3.8.1 test
Kylin系列-Apache Kylin优化–高级设置:聚合组(Aggregation Group)原理解析
本文转自<em>apache</em><em>kylin</em>公众号。 “随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维度(Mand
Apache Kylin在美团数十亿数据OLAP场景下的实践
本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。 美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据<em>进行</em>分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,<em>如何</em>将Kylin应用到实际场景中,以及目前的使用方式和现状。同时也
Apache Kylin CDH版本安装部署
1   Kylin安装部署 1.1  Kylin安装步骤 l  下载Kylin安装包 登录http://www.<em>apache</em>.org/dyn/closer.cgi/<em>kylin</em>/<em>apache</em>-<em>kylin</em>-1.6.0/<em>apache</em>-<em>kylin</em>-1.6.0-cdh5.7-bin.tar.gz下载安装包 l  解压安装包 tar -zxvf <em>apache</em>-<em>kylin</em>-1.6.0-cdh5.7-b
《Apache Kylin处理分表时间戳更新机制》
1、生产场景 从Kafka获得的数据导入至HBase,<em>kylin</em> java api 需要依据HBase中数据的RowKey及时间戳,refresh或者build相应的cube。 2、问题描述 新增数据自然没有问题,RowKey、时间戳直接拿来用,但是如果执行的是更新、修改操作:主表没问题,分表有问题。由于Kylin在建cube的时候是以时间字段作为分区,该时间字段必为主表的时间字段,
Apache Kylin 维度优化指南
为什么需要维度优化因为如果不<em>进行</em>任何维度优化,直接将所有的维度放在一个聚集组里,Kylin就会计算所有的维度组合(cuboid)。比如,有12个维度,Kylin就会计算2的12次方即4096个cuboid,实际上<em>查询</em>可能用到的cuboid不到1000个,甚至更少。 如果对维度不<em>进行</em>优化,会造成集群计算和存储资源的浪费,也会影响cube的build时间和<em>查询</em>性能,所以我们需要<em>进行</em>cube的维度优化。...
Apache Kylin 高基数维度处理 以及 其他优化
第一个问题:在Tableau中显示的度量值如果是SUM计算,那么在Hive中最好使用的字段类型为decimal(20,0),避免使用int以及bigint。 第二个问题:高基数维度的Cube在构建过程中报错,GC limite exceeded 以及java.lang.OutOfMemoryError: Java heap space,需要在~/conf/<em>kylin</em>_job_conf.xml中添...
Apache Kylin
Apache Kylin Apache Kylin Apache Kylin Apache Kylin
Apache Kylin的Top-N近似预计算
时间 2016-08-08 08:00:00  InfoQ 原文   http://www.infoq.com/cn/news/2016/08/Apache-Kylin-Top-N 本文:http://www.tuicool.com/articles/qimeyae Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能
Apache Kylin安装部署
Apache Kylin安装部署Apache Kylin安装部署Apache Kylin安装部署
Apache Kylin 添加登录用户和密码(修改登录名和密码)
一、准备工作: 提示:如果想要跳过第一步,直接进入第二步添加或者是修改用户名和密码。 请使用该加密工具(jar包):https://download.csdn.net/download/shtdayu/10812371 Step1.创建一个maven项目 <em>kylin</em> Step2.添加依赖 &amp;lt;dependency&amp;gt;     &amp;lt;groupId&amp;gt;org.springfr...
Apache kylin安装配置
<em>kylin</em>安装配置,<em>kylin</em> cube
Apache Kylin高级部分之使用Hive视图
本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图;而如果使用Hive视图,能够带来什么好处,解决什么样的问题;以及需要学会<em>如何</em>使用视图,使用视图有什么限制等等。 1.      为什么需要使用视图Kylin创建Cube的过程中使用Hive的表数据作为输入源。但是有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要<em>进行</em>处理,有些列的类型不满足需求,甚至
(转)给大数据分析师的一双大礼:Apache Kylin和Superset
转自分析师的挑战在大数据时代,使用传统数据处理方式已经无法满足企业大规模数据的增长,而人工智能和IoT时代的到来让处理超大规模数据,解读超大规模数据的需求更加迫在眉睫。分析和理解超大规模数据集就成为这些企业要解决的当务之急。一重礼: Apache Kylin 开源OLAP on Hadoop引擎现代企业使用联机分析处理 (OLAP) 技术来分析数据,生成报表,从而帮助业务人员制订商务决策。随着大数...
使用Kylin导入JDBC数据源遇到的问题
一、目标: 直接使用Mysql数据作为Kylin数据源 二、参考官方配置 JDBC 数据源 准备 Sqoop Kylin 使用 Apache Sqoop 从关系型数据库加载数据到 HDFS。在与 Kylin 同一个机器上下载并安装最新版本的 Sqoop。我们使用 SQOOP_HOME 环境变量指出在本指南中 Sqoop 的安装路径。 准备 JDBC driver 需要下载您数据库的 J...
Apache Kylin的前世今生
1. Apache Kylin的由来在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求。比如Hive是基于Hadoop的一个用来做企业数据仓库的工具,可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表,并提供SQL<em>查询</em>功能,Hive执行引擎可以将SQL转换为MapReduce任务来<em>进行</em>运行,非常适合数
SQL中各种函数
#################### #各种各样的函数 #################### CREATE TABLE SampleMath (m NUMERIC (10,3), n INTEGER, p INTEGER); INSERT INTO SampleMath(m, n, p) VALUES (500, 0, NULL); INSERT INTO Samp...
kylin问题总结
点击加载hive表出现如下异常: java.lang.NoClassDefFoundError: org/<em>apache</em>/hadoop/hive/cli/CliSessionState java.lang.NoClassDefFoundError: org/<em>apache</em>/hadoop/hive/ql/session/SessionState 解决:将hive lib文件夹下的lib拷贝
Apache Kylin Tutorial 1.5
Apache Kylin Tutorial, 官方网站整理而来。 Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial Apache Kylin Tutorial
Apache Kylin权威指南 1.5版本 笔记
1.概述 (p21-32) : (1) 数据表或者数据模型上所有字段只有两种分类: 维度或者度量, 度量可以被聚合 . 是数据分析中的两个基本概念. 维度指审视数据的角度, 通常是数据记录的一个属性,例如时间,地点等. 度量是基于数据所计算出来的考量值,通常是一个数值, 如总销售额,用户数等. 在一个sql中, GROUP BY的属性通常就是维度, 而所需要计算的值就是度量
Kylin的概述
Kylin的诞生、实现亚秒级<em>查询</em>的方式、优点
全网最详细Apache Kylin1.5安装(单节点)和测试案例
http://m.blog.itpub.net/30089851/viewspace-2121221/ 1.版本 Hadoop2.7.2+HBase1.1.5+Hive2.0.0 <em>kylin</em>-1.5.1Kylin1.5 (<em>apache</em>-<em>kylin</em>-1.5.1-HBase1.1.3-bin.tar.gz) 2.Hadoop环境编译以<em>支持</em>Snappy解压缩库 重新编译
Kylin 的优化以及使用总结
转:http://www.cnblogs.com/hark0623/p/5521006.html Apache Kylin对传统MOLAP的改进   计算Cube的存储代价以及计算代价都是比较大的, 传统OLAP的维度爆炸的问题Kylin也一样会遇到。 Kylin提供给用户一些优化措施,在一定程度上能降低维度爆炸的问题:   Cube 优化: Hierachy
kylin报错及解决方案总结
一、在build cube这一步中报错:Value not exists! <em>查询</em>该步的mr日志,提示 Not a valid value:2017-05-31,有两种可能 1.该错误是由于build过程中,所引用的维表数据发生了变化,使用该值<em>查询</em>维表,维表中不存在这条数据。 2.olap表关联了维表,但只使用了关联字段,如果olap表的code在维表里不存在,则会报错
kylin运行sql报错
Caused by: org.<em>apache</em>.hadoop.hbase.ipc.RemoteWithExtrasException(org.<em>apache</em>.hadoop.hbase.exceptions.UnknownProtocolException): org.<em>apache</em>.hadoop.hbase.exceptions.Unkno wnProtocolException: No register
如何用Apache Kylin让Hive表查询提速千百倍
<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍<em>如何</em>用Apache Kylin让Hive表<em>查询</em>提速千百倍
Apache Kylin高级部分之JDBC访问方式
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具<em>进行</em>很好的集成。分析师们可以用他们最熟悉的工具来享受Kylin带来的快速。本章节介绍通过Java程序调用Kylin的JDBC接口访问Kylin的Cube数据。首先我们来看一下连接Kylin的URL格式为:jdbc:<em>kylin</em>://:/注:如果“ssl”为true话,那么上面的端口号应该为Kylin服务的HTTPS端口号。<em>kylin</em>_p
Kylin 的架构和原理
1. Kylin的设计思想1.1 与其他开源大数据框架设计思想的对比 解决大数据不断增长中高速<em>查询</em>的能力。 怎么保证随着数据量的增长,怎么保证在未来的数据<em>查询</em>性能不受影响。 从算法角度讲,现有的大数据框架可分为以下几类: 1.并行计算:mapreduce、spark 2.列式存储:parquet,节省IO 3.(倒排)索引:节省IO 这三种在集群规模不变的情况下,随着数据的无限增长,查
Apache Kylin集群部署
笔者所在的公司,目前打算在测试、生产环境上面部署Apache Kylin集群,注意以下几点: 1、<em>kylin</em>.server.mode=all,job,query (这个决定了当前<em>kylin</em>节点所担任的角色,一个Kylin集群只能有一台作业引擎,也即只能有一台节点的这个配置项目为all或者job , 可以有多台query节点) 2、<em>kylin</em>.rest.servers=10.17
Kylin系列-分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
关键字:olap、Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,<em>查询</em>引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求
Apache Kylin在绿城客户画像系统中的实践
前言作为国内知名的房地产开发商,绿城经过24年的发展,已为全国25万户、80万人营造了美丽家园,并将以“理想生活综合服务提供商”为目标,持续为客户营造高品质的房产品和生活服务。2017年,绿城理想生活集团成立,围绕客户全生活链、房屋全生命周期,为客户提供从买房子到房屋的保养维护,再到业主全方位的生活服务。为此构建了绿城+App生活服务平台、房产营销数字化平台及房屋4S服务平台,这些系统的构建为业主
Apache kylin 原理和架构
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 1.基本原理 <em>kylin</em>的核心思想是预计算,理论基础是:以空间换时间。即多多维分析可能用到的度量<em>进行</em>预计算,将计算好的结果保存成Cube并存储到hbase中,供<em>查询</em>时直接访问。
使用api查询Kylin数据
1、安装pip必要包 pip install <em>kylin</em>py pip install sqlalchemy 2、 <em>查询</em>代码: import sqlalchemy as sa def <em>kylin</em>_query(conn_str,query_sql): #查看表(我没跑通) <em>kylin</em>_engine = sa.create_engine(conn_str) ky...
基于Apache Kylin 构建大数据分析平台
基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台基于Apache Kylin 构建大数据分析平台
hive 与 kylin的搭建
hive安装 前言 由于<em>kylin</em>现在最高<em>支持</em>的hive版本为1.2.1,所以只能安装此版本,不能安装hive2.0。使用hive需要事先安装好ant,具体安装过程不<em>进行</em>介绍,还需要一个mysql来保存hive的元数据。 编译hive 编译hive一定要保证网络通畅,编译过程中会出现个别的包无法下载,导致错误,换个时间或者调整网络环境,从新编译,就可以了 解压源码包。<em>进行</em>编译。
kylin维度优化指南
先说一下维度表需要遵循的规范: 维表需要有code和name,比如:city_code city_namecode字段的类型最好使用整数,这样可以加快<em>kylin</em>的构建速度和<em>查询</em>速度如果维表是层级维表,比如是国家、省份、城市的层级需要对每个层级都要有对应的code和name,比如:country_code country_name province_code province_name
Kylin介绍 (很有用)
转:http://blog.csdn.net/yu616568/article/details/48103415    Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于<em>支持</em>大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅<em>支持</em>hbase),这段时间对mondrian和<em>kylin</em>都<em>进行</em>了使用,...
Apache Kylin安装配置及使用示例
转子:http://blog.csdn.net/xgjianstart/article/details/53289870 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(
OLAP引擎——Kylin介绍
最近一直在学习和使用<em>kylin</em>,分享一下学习的收获以及对<em>kylin</em>的理解~
kylin使用过程中需要注意的点
一、维表 事实表中多个维度字段不能关联同一张维表。如果关联同一张表的情况,可通过视图区别开。 二、维表字段    不同维表中的字段不能同名,建议加上表名做前缀。字段的中文描述应区分开,比如city_name,根据字段的不同用途可分别命名为所在地城市、访问地城市。     对于时间维表,配置cube 时 选定的字段命名必须 统一:日 的叫 DATE  字段, 周是SUN_DT
kylin从入门到实战:实际案例
版权申明:转载请注明出处。 文章来源:http://bigdataer.net/?p=308 排版乱?请移步原文获得更好的阅读体验 前面两篇文章已经介绍了<em>kylin</em>的相关概念以及cube的一些原理,这篇文章将从一个实际的案例入手,介绍<em>如何</em>在<em>kylin</em>平台上创建一个多维分析项目。 1.创建project 进入<em>kylin</em>操作界面,如果没有project可以创建,<em>kylin</em>
【Apache Kylin 】大数据下的OLAP解决方案(作业构建)
Apache Kylin™提供Hadoop之上的SQL<em>查询</em>接口及多维分析能力以<em>支持</em>超大规模数据,能在亚秒内<em>查询</em>巨大的Hive表,其核心思想采用了预计算。本文将对Cube预计算构建详细分析,基于Kylin-1.5.4.1版本。
《Apache Kylin cube优化指南》
1.生产场景 号称亚秒级的大数据分析引擎---Apache Kylin就要投产了,但这只OLAP中的神兽,在build数据的时候,速度奇慢且太耗空间,大概一个月的数据,build将近半个小时,且大小将近2GB!!! 2.需求 <em>如何</em>正确驾驭这只OLAP界的“神兽”,让它发挥应有的水平,降低数据膨胀率并且缩短Cube的build时间。 3.解决方案 ①数据层面 生产场景中K
Kylin系列-大数据分析界的“神兽”Apache Kylin有多牛?
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么?   在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平
基于 Druid 的 Apache Kylin 存储引擎实践
在2018年8月的Apache Kylin meetup@北京活动上,美团点评工程师做了关于使用 Druid 做为 Apache Kylin 存储引擎的实践,并更新了 Kylin 在美团点评的使用现状。 篇幅过长,完整资源地址https://www.slidestalk.com/s/KylinOnDruidInMeituan ...
Apache Kylin原理学习之Cube的创建与Build
原文地址:http://lxw1234.com/archives/2016/05/655.htm Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来源ID、浏览器ID
kylin raw度量 需要注意的东西
大约就是 1.避免数据倾斜 2.设置参数 3.将大的segment变成小的segment<em>进行</em>操作 4.raw度量 在cuboid的大小不能超过1M 不然就bufferoverflowexeption 说是说以后会<em>进行</em>优化,然并卵 5.raw度量不<em>支持</em>where条件<em>查询</em> 链接:http://<em>kylin</em>.<em>apache</em>.org/blog/2016/05/29/raw-measure
kylin的cube原理
https://blog.bcmeng.com/post/<em>kylin</em>-cube.html
给大数据分析师的一双大礼:Apache Kylin和Superset
在大数据时代,使用传统数据处理方式已经无法满足企业大规模数据的增长,而人工智能和IoT时代的到来让处理超大规模数据,解读超大规模数据的需求更加迫在眉睫。
Apache Kylin权威指南
Apache <em>kylin</em>的权威指南 第1章 Apache Kylin概述 第2章 快速入门 第3章 增量构建 第4章 流式构建 第5章 <em>查询</em>和可视化 第6章 Cube优化 第7章 应用案例分析 第8章 扩展Apache Kylin 第9章 Apache Kylin的企业级功能 第10章 运维管理 第11章 参与开源 第12章 Apache Kylin的未来
Kylin中看不到hive库表但是hive命令行可以看到
hive环境迁移后发现在Kylin中load data source的时候找不到hive中的数据库和表了,但是执行hive命令<em>查询</em>库表及其数据都没有问题。解决方法如下:<em>kylin</em>.properties中的配置项:<em>kylin</em>.env.hadoop-conf-dir=/etc/hadoop/conf该配置表示在/etc/hadoop/conf目录下要存在所有大数据平台的配置文件,这里检查hive-si...
基于Apache Kylin大数据多维查询分析平台实践(已稳定运行2年多)
背景:B公司,前美纳斯上市公司,上亿App用户,近年来数据呈爆发式增长,每天行为日志达10T,原有的hive+mysql(<em>查询</em>太慢,存储太大),hive+impala(界面不友好,需要写sql语言,门槛较高,不方便运营人员<em>查询</em>数据,对多维数据<em>查询</em>较慢),已经满足不了当下需求,急需要一个能<em>支持</em>大规模数据<em>查询</em>,速度又快,使用零门槛的<em>查询</em>服务,几套方案选择后,最终选择了Kylin,主要看重的是它<em>支持</em>大规...
[kylin]Kylin 快速数据立方算法揭秘
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据。它能在亚秒内<em>查询</em>巨大的Hive表。本文将详细介绍Apache Kylin 1.5中的Fast-Cubing算法。 Fast Cubing,也称快速数据立方算法, 是一个新的Cube算法。我们知道,Cube的思想是用空间换时间, 通过预先的计算,把索引及
docker安装搭建kylin
1.拉取docker镜像(注意:这个<em>kylin</em>是0.7.2版本的,集成了ambari1.7和hdp Hadoop2.2,镜像大约6G)   docker pull sequenceiq/<em>kylin</em>:0.7.2   拉取完成镜像,通过 docker iamges 查看sequenceiq/<em>kylin</em>:0.7.2镜像是否成功   2.启动<em>kylin</em>镜像 1) 首先执行以下docker命令...
Kylin系列-Caravel–一款开源OLAP+数据可视化分析前端工具,支持Druid和Kylin
关键词:caravel、olap、<em>kylin</em>、数据可视化 Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据<em>进行</em>可视化分析。官网地址为: http://airbnb.io/caravel/ Caravel介绍 Caravel底层使用Python开发,与SQL
kylin 安装配置实验
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 <em>kylin</em> 1.5.1(一定要<em>apache</em>-<em>kylin</em>-1.5.1-
Rest接口操作Kylin
由于官方网站的介绍中,涉及的Rest接口较少,现通过官方提供在github上的源码包,使用一些其他实用的Rest接口。 找到Kylin Rest源码:https://github.com/<em>apache</em>/<em>kylin</em>/tree/master/server-base 到org.<em>apache</em>.<em>kylin</em>.rest.controller目录下查找对应的controller类 例
分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,<em>查询</em>引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求; <em>支持</em>额外功能和特性的插件;
Apache Kylin - Tuning - Dong Li
Apache Kylin - Tuning - Dong Li;Apache Kylin - Tuning - Dong Li
apache kylin 权威指南 带目录
<em>apache</em> <em>kylin</em> 权威指南 带目录 <em>apache</em> <em>kylin</em> 权威指南 带目录
在Windows下搭建kylin(麒麟)运行环境
刚来公司实习,所在的项目组是做<em>kylin</em>的,仅以此文记录下<em>kylin</em>开发环境的搭建。 由于<em>kylin</em>是运行在linux系统上的,而公司给我配的电脑是Windows的,所以在这里讲的是Windows下配置运行环境。 <em>kylin</em>是建立在hadoop之上的,所以依赖于Hadoop。 step1、下载配置JDK step2、下载配置maven step3、申请一个云主机 可以选择阿里巴巴付费的...
Apache Kylin技术文档(包括权威指南)
网上收集的一些Apache Kylin技术文档,包括Apache Kylin权威指南
kylin集群Nginx负载均衡
Nginx负载均衡1, Nginx负载均衡简介跨多个应用程序实例的负载平衡是优化资源利用率,最大化吞吐量,减少延迟以及确保容错配置的常用技术。可以使用nginx作为非常高效的HTTP负载均衡器,将流量分配给多个应用程序服务器,并通过nginx提高Web应用程序的性能,可伸缩性和可靠性。2, Nginx负载均衡机制nginx<em>支持</em>以下负载均衡机制(或方法):循环 - 对应用程序服务器的请求以循环方式分
Kylin源码 二次开发
-
apache kylin操作使用教程
针对目前网络kyli相关资料较少,以实际操作出发,撰写了此文档。
Kylin 大数据时代的OLAP利器
Olap简介 OLAP的历史与基本概念 Olap全称为在线联机分析应用,是一种对于多维数据分析<em>查询</em>的解决方案。 典型的Olap应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。 最早的Olap<em>查询</em>工具是发布于1970年的Express,然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出,伴随而来的是著名的“twelve laws of onli
Apache Kylin的入门安装
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL<em>查询</em>接口及多维分析(OLAP)能力以<em>支持</em>超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内<em>查询</em>巨大的Hive表。 从官网的介绍来看Kylin是一个OLAP的数据<em>查询</em>引擎,其特点就是快。公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传
Apache Kylin优化之—Cube的高级设置
转载:http://bigdata.51cto.com/art/201705/538648.htm 根据本系列的原理介绍,在Kylin的高级设置中,用户可以根据<em>查询</em>需求对Cube构建预计算的结果<em>进行</em>优化(剪枝),从而减少占用的存储空间。 而优化得当的Cube可以在占用尽量少的存储空间的同时提供极强的<em>查询</em>性能。 随着维度数目的增加,Cuboid 的数量
null详解
-- null 的用法 -- 1)希望选取NULL记录时,需要在条件表达式中使用IS NULL运算符。 -- 希望选取不 是NULL的记录时,需要在条件表达式中使用IS NOT NULL运算符。 #错误用法 SELECT product_name, purchase_price FROM Product WHERE purchase_price = NULL; #正确用法 SELECT p...
Apache Kylin在电信运营商的实践和案例分享
名为《开源项目的正确打开方式》,文章中把开源项目的研究分成了三个阶段:选、用、修改。 一是怎么选开源项目,包括满足业务需求,具备运维能力,项目基本成熟,团队靠谱,社区活跃等等; 二是怎么用开源项目,包括深入研究仔细测试,做好应急以防万一,小心应用灰度发布,结合业务场景做好参数调整等等; 三是怎么修改开源项目,就是保持纯洁加以包装,发明适合自己的轮子。 目前我们团队处于第二阶段,我希
apache kylin 权威指南(高清正版中文版)
<em>apache</em> <em>kylin</em> 权威指南(高清正版中文版)不可多得的正版pdf,不是扫描版本
Apache Kylin 2.0:从Hadoop上的OLAP 引擎到实时数据仓库 [session]
Strata Data Conference早期门票优惠本周五即将截止! 还有一天,欢迎大家踊跃报名! 点击阅读原文可登录会议网站,尽快报名以确定留位! Apache Kylin 2.0:从Hadoop上的OLAP 引擎到实时数据仓库 讲师:Dong Li (Kyligence) 11:15–11:55 Saturday, 2017-07-15 数据工程和架构 (Data
《基于Apache Kylin构建大数据分析平台》
经过出版社几个月的辛苦努力,《基于Apache Kylin构建大数据分析平台》终于与读者见面了。现在京东,当当,淘宝,亚马逊等各大网站以及书店已经开始发售,非常感谢很多对Apache Kylin感兴趣的朋友们的<em>支持</em>和鼓励,希望此书可以帮助读者朋友们更好更快的进入Apache Kylin的世界,也希望读者朋友们多提宝贵意见,这样我会更好地完善此书。
Kylin的cube模型
http://www.cnblogs.com/en-heng/p/5239311.html Kylin的cube模型 1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和<em>查询</em>处理,这种处理被称为OLTP(Online Transaction
Apache Kylin在百度地图的实践
1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析<em>查询</em>服务。 对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台
Kylin的Hierarchies,Derived维度方面配置优化
Hierarchies: 理论上对于N维度,我们可以<em>进行</em>2的N次方的维度组合。然而对于一些维度的组合来说,有时是没有必要的。例如,如果我们有三个维度:continent, country, city,在hierarchies中,最大的维度排在最前面。当使用下钻分析时,我们仅仅需要下面的三个维度的组合: group by continent group by continent, co
通过Excel访问Kylin
1 通过Excel访问Kylin 1.1 Power Query下载 从微软官网下载和安装Power Query,如图18-4所示。下载地址: https://www.microsoft.com/zh-CN/download/details.aspx?id=39379 点击下载 点击下面的Next,页面上开始下载PowerQuery. 1.2 安装Po...
《KyLin学习理解》-01-KyLin麒麟的简介及其思想
1。诞生背景 HIVE是数据仓库,是把存储在HDFS分布式文件系统的存储文件映射到类似于关系型数据库的东西。 举个例子: 假设有一个文件存储在本地/opt/hzjs/lcc_work/pro.txt文件,文件的格式为1 产品120 23 5 115 358 2069-03-27 2 产品16 63 3 189 9 2045-04-27
superset和kylin搭配查不出数据的处理
公司使用superset和<em>kylin</em>的搭配已经有一段时间了,关于superset和<em>kylin</em>搭配查不出数据的处理需要重点记录一下,避免下次忘记 1、count关键字问题 count字段是<em>kylin</em>的关键字,在superset中,简单的方法是建议在Edit sqla Table中,将count改为count1就ok. 如果经常使用count字段,建议修改py<em>kylin</em>插件,实现对count
多个 Kylin 服务
多个 Kylin 服务 多个 Kylin 服务 Kylin Server modes 设置多Kylin REST服务 1. Kylin Server modes Kylin实例是可以无处不在的,其运行时状态保存在$KYLIN_HOME/conf/<em>kylin</em>.properties中所设置的<em>kylin</em>.metadata.url元数据存储当中。出于对负载均衡的考虑,可运行多
Apache Kylin大数据OLAP利器.pdf
Apache Kylin大数据OLAP利器.pdf;Apache Kylin大数据OLAP利器.pdf
使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍<em>如何</em>使用Kylin来构建大数据分析平台。根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的Hadoop大数据平台。你只需要根据的环境下载适合的Kylin安装包,选择一个Hadoop节点部署即可,Kylin使用标准的Hadoop API跟各个组件<em>进行</em>通信,不需要对现有的Hadoop安装额外的Agent。      Kylin部署的架构是一个分层的结构...
Kylin Cube 的权限管理
In Cubes page, double click the cube row to see the detail information. Here we focus on the Access tab. Click the +Grant button to grant permission. There are four different kinds of permissions
文章热词 使用JM编解码器进行H.264的编码和解码 3d相机标定极对极几何 solidity结构类型字符串 机器学习 机器学习课程
相关热词 c++长整形支持的范围 如何对c++类进行扩展 c++如何对数组进行构造函数初始化 c#如何对图像进行操作 python进行数据分析教程 区块链价格查询
我们是很有底线的