应对大数据上SQL的需求:Apache Drill

SG90 2014-08-25 11:32:03
应对大数据上SQL的需求:Apache Drill

SQL已经相当流行——为什么呢?客户正在寻求交互式的大数据解决方案,这些解决方案需要流线型工作流和选择便利性。能够在Hadoop和其他大数据系统上使用SQL,已经朝着这一目标迈了一大步。

产生这种需求的一个原因是,这些大数据工具可以与SQL交互,但是以往的大数据解决方案并不能。上世纪70年代IBM研究院Ted Codd开发了SQL,因为人们需要一个标准方式来访问和使用关系型数据库中的数据。这需求仍然存在,它甚至比以前更重要,因为目前很多系统已经实现生成标准的SQL。然而,对于Hadoop这样的现代可扩展系统和非关系型数据库,标准事务型SQL不再适用,所以,系统分离了。这种不当的搭配可能意味着冗余、昂贵和复杂的工作区,来满足SQL兼容基于Hadoop大数据系统的低成本优势的广泛需求。

MapR技术通过多种方式解决这些问题。它通过自己的大数据平台和对开源项目Apache Drill的贡献来提供广泛的支持。

多达30种新产品和开源项目试图解决Hadoop上SQL和类SQL的需求,包括Apache Hive,Cloudera的Impala,开源Apache Drill,通过Cascading开发的MapReduce和Hadoop的开源SQL解决方案Lingual。

Apache Drill是什么?为何MapR对它投入如此之多?

客户想要很广泛的功能,而在引入新技术的时候,Apache Drill的设计使得它能够很容易就连接到大范围的分析工具和数据源。

很多Hadoop项目上的SQL都是把小数据集上开发的功能再次开发,尽力让它们满足大数据的需求。虽然它们解决了很多真实的需求,但是它们根本上还是后视镜型项目。相反,Apache Drill作为一个媒介,将新技术引入这个问题域。Apache Drill受到google的Dremel项目的影响,达到了更高的要求,并且正在设计新的功能。

Apache Drill提供了访问大数据存储的交互式特定查询功能。Drill的一个重要特征就是速度,它被设计在低延迟响应下处理P字节的数据。Drill很重要的一个方面是,它不解决过去5-10年的问题,而是向前建立一个新的技术,解决当前和未来5年内的需求。

Drill高灵活度的架构设计主要提供如下关键技术:
1模式可选
2处理嵌套数据的能力(例如JSON,Protobuf,Parpuet)
3柱形内存存储和执行
4全标准的ANSI SQL:2003查询能力
5先进的低成本优化器
6为多个社区提供广泛好处的高可扩展的架构(例如,向非SQL PIG的扩展能力,或者建立机器学习原语,能够集成到Drill为Mahout提供先进执行引擎)
7YARN整合

Apache Drill开源项目的社区驱动方面相当重要。除了MapR的支持,Apache Drill的贡献者来自不同的地区和公司,包括Pentaho,Oracle和VMVare等。Drill开发者一直合作产生大量的代码,准备alpha版本的发布。随着这些新技术将传统工具和现代基于Hadoop的系统连接起来,我们正在进入一个大数据分析和大规模机器学习的令人激动的时期。

来自Responding to the Need for SQL on Big Data: Apache Drill
...全文
1460 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
Roottan 2016-10-04
  • 打赏
  • 举报
回复
hive ,spark sql
CrazyShaQiuShi 2016-09-23
  • 打赏
  • 举报
回复
java代码真么加载对应驱动访问呢?
鲁邦 2016-05-30
  • 打赏
  • 举报
回复
Hive速度上不行。
SG90 2014-08-30
  • 打赏
  • 举报
回复
我们正在进入一个大数据分析和大规模机器学习的令人激动的时期,结贴了
zixin1990 2014-08-26
  • 打赏
  • 举报
回复
Apache Hive还是比较流行的
SG90 2014-08-26
  • 打赏
  • 举报
回复
引用 1 楼 zixin1990 的回复:
Apache Hive还是比较流行的
是啊,支持类SQL查询
大数据图标大全全文共4页,当前为第1页。大数据图标大全全文共4页,当前为第1页。图标 大数据图标大全全文共4页,当前为第1页。 大数据图标大全全文共4页,当前为第1页。 组件名称 说明 Falcon 一个数据生命周期管理框架 Solr 搜索工具 Hive 数据仓库 Hbase 基于key-value的列式存储数据库 TensorFlow 开源机器学习工具 Ambari Hadoop集群管理运维工具 Drill 数据查询引擎 Spark 实时计算工具 Flume 数据采集工具 Sqoop 数据ETL工具 ElasticSearch 搜索系统 Logstash 日志采集工具 Kibana 数据展现工具 Ranger 集中安全管理工具 Atlas 数据治理和元数据管理框架 kettle ETL工具 mongodb Key-value数据库 saiku 数据分析工具 Kerberos Kylin 一个基于预计算的数据分析引擎 Zeppelin 数据分析展示工具 大数据图标大全全文共4页,当前为第2页。大数据图标大全全文共4页,当前为第2页。 大数据图标大全全文共4页,当前为第2页。 大数据图标大全全文共4页,当前为第2页。 Flink 实时计算框架 Mahout 数据挖掘工具 Kafka 基于消息订阅的高速数据总线 Druid 多维数据分析工具 Pig 一个编程工具 Storm 实时计算工具 Oozie 工作流管理 Tez 应用处理框架 Zookeeper 分布式高可用工具 sentry 授权管理工具 HUE Hue is a smart Analytics Workbench. dremio 另外一个drill Nifi 一个易用,强大,可靠的数据处理分发工具 Presto 分布式大数据SQL查询引擎 Cassandra 一个面向列式存储的数据库 Greenplum Database 旗舰分析数据仓库 Superset 可视化分析工具 Livy REST Service for spark 大数据图标大全全文共4页,当前为第3页。大数据图标大全全文共4页,当前为第3页。 大数据图标大全全文共4页,当前为第3页。 大数据图标大全全文共4页,当前为第3页。 HAWQ Hadoop With Query (是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用) Chukwa Apache Chukwa is an open source data collection system for monitoring large distributed systems. Kudu Kudu is a columnar storage manager developed for the Apache Hadoop platform Tajo A big data warehouse system on Hadoop Trafodion Transactional SQL-on-Hadoop Database Phoenix OLTP and operational analytics for Apache Hadoop Impala Apache Impala (incubating) is the open source, native analytic database for Apache Hadoop Giraph Apache Giraph is an iterative graph processing system built for high scalability. Hama Apache HamaTM is a framework for Big Data analytics which uses the Bulk Synchronous Parallel (BSP) computing model Slider Dynamic YARN Applications Avro Apache Avro is a data serialization system. Aurora Aurora is a Mesos framework for long-running services and cron jobs. 大数据图标大全全文共4页,当前为第4页。大数据图标大全全文共4页,当前为第4页。 大数据图标大全全文共4页,当前为第4页。 大数据图标大全全文共4页,当前为第4页。 Eagle Analyze Big Data Platforms For Security and Performance Ignite A memory-centric data platform Twill Apache Twill is
数据分析技术与方法 20150108 数据分析方法与技术全文共66页,当前为第1页。 2 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 目 录 数据分析与数据挖掘 第四部分 数据分析方法与技术全文共66页,当前为第2页。 数据量增加 TB PB ZB EB 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临… 数据分析时代的背景 数据分析方法与技术全文共66页,当前为第3页。 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 占总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 大数据的4V特征 "大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)" 数据分析方法与技术全文共66页,当前为第4页。 Volume 海量的数据规模 Variety 多样的数据类型 Value Velocity 快速的数据流转 发现数据价值 要解决的问题 大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取数据价值(value),将是IT 领域新一代的技术与架构。 数据分析方法与技术全文共66页,当前为第5页。 分析技术: 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真 数据处理相关技术 海量数据存储: 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储 解决方案: Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4) Spark(基于内存的分布式计算) 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQLSQL 基础架构支持:云存储;分布式文件系统 计算结果展现:云计算;标签云;关系图 数据分析方法与技术全文共66页,当前为第6页。 数据处理与分析框架 HIVE Pig! 分布式 文件系统 海量 数据存储 大规模计算 智能 分析算法 Zoo Keeper 明细数据 E T L 报表展示 数据分析 数据挖掘 元数据管理 数据质量监控 数据监控 数据集市 数据应用 汇总加工数据 数据应用 数据仓库 源数据 数据平台技术 数据仓库架构 数据采集 数据处理 数据分析方法与技术全文共66页,当前为第7页。 8 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 HDFS+MapReduce+Hive Storm+Spark 数据分析与数据挖掘 第四部分 目 录 数据分析方法与技术全文共66页,当前为第8页。 9 不同分析场景解决方案 根据响应时长可以将应用需求进行如下划分: 实时应用场景(0~5s): Storm、S4、Cloudera Impala,Apache Drill等; 交互式场景(5s~1m): 最好支持SQL,: Shark 、Cloudera Impala、Apache Drill等; 非交互式场景(1m~1h): MapReduce、Hive、Pig、Stinger等; 批处理场景(1h+) 运行时间较长,处理数据量较大,对容错性和扩展性要求较高 MapReduce、Hive、Pig、Stinger等。 数据分析方法与技术全文共66页,当前为第9页。 Hadoop 生态系统 External Data Sources HDFS storage layer Processing Framework (Map-Reduce) HBase Sqoop + Flume Pig HiveQL Mahout Hive Metastore (HCatalog

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧