79,539
社区成员




湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性
大数据(Big Data)在字面上的理解是海量数据,但这个角度是抽象的。在网络信息时代,大数据产生的客观意义并不在于其宏大的数据规模,而在于如何数据进行专业存储和处理,并从中挖掘和提取所需要的知识价值。
技术突破通常来源于市场对产品的实质需求,互联网、云、AI的不断发展与大数据技术融合满足了商业需求。在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源。
大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。
在大数据技术发展的60多年之间,数据应用经历了互联网、移动互联网蓬勃的发展与需求变革。数据库与数据仓库基于事务分析处理等传统优势依然是当前信息技术的中流砥柱,但也在日益增长的数据复杂度需求以及海量弹性的数据规模面前难以匹配。
分布式架构的突破与云计算的兴起奠定了数据湖的概念,湖仓一体则进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利。
数据仓库与数据湖作为两个单独的数据管理范式都具备成熟的技术积累,在长期实践中两者以湖+仓的混合架构方式共同存在:数据湖用作对原始数据的提取和处理,同时依赖数据仓库在数据管道的发布。
在用户反馈中,湖+仓的混合架构存在着使Hadoop和MPP共存下的数据冗余、两个系统间ETL造成的低时效性、一致性保障及运维等方面的困难。
在用户需求的驱动下,数据湖与数据仓库提供商在原本的范式之上向其限制的范围扩展,逐渐形成了“湖上建仓”与“从数仓向湖”的两种“湖仓一体”的成型路径。虽然在底层逻辑中,湖仓一体仍然是一个二元体系,但能够极大帮助用户在其原IT基础之上封装出与需求更紧密的大数据范式,或者直接挂载全托管服务的湖仓一体系统。
数据仓库本身以及ETL的性能取决于通信、I/O能力和硬件性能,执行架构则决定了数据仓库的支撑能力
数据库侧重OLTP,数据仓库侧重OLAP。数据仓库是传统的关系型数据库如SQL Server、Oracle等,经过严格的数据模型设计或参数调整就可以变成很好的数据仓库实体,而纯粹的数据仓库如Terradata、SybaseIQ若要用来适应OLTP系统则不合适。
趋势中,OLAP与OLTP正在走向统一融合成HTAP,数据库对AP分析能力的加强将使数据库与数据仓库的界限将逐渐模糊。
Hadoop架构(MapReduce模型)适合海量数据存储查询、批量数据ETL、非结构化数据分析;而MPP架构适合替代现有关系型数据结构下的大数据处理,进行多维度数据分析、数据集市。
混搭架构中,MPP处理高质量的结构化数据,同时提供SQL及事务支持。而Hadoop实现半结构化、非结构化数据处理。通过这种混搭方式,自动满足结构化、半结构化、非结构化数据的高效处理的需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的困难。这种打破数据仓库与数据仓库边界的方案已经成为了一种主流架构方式。但在湖仓一体进程中,有更多新兴的架构正在开发和验证,或有新一代的架构在未来将取代MPP-Hadoop架构成为更优的架构方案。
数据湖为了实现实时数据处理开发出了多种架构方式,其中最具代表性的是Lambda、Kappa、IOTA架构
数据湖从Lambda架构开始完成离线与实时计算的融合,Kappa架构统一了数据口径简化数据冗余。IOTA架构通过边缘下发和统一数据模型取消了ETL,进一步加速了数据湖效率。
其他的数据湖架构还有偶数科技自研的Omega架构,由流数据处理系统和实时数仓组成。融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变更数据实时快照的能力。
随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键
数据库、数据仓库、数据湖以及湖仓一体等产品是数据基础设施,如何采用数据分析工具,并且驱动决策,才能转化出数据价值。人工智能和机器学习功能是赋予湖仓一体服务能力创新的重要功能。
数据智能(Data Intelligence)即基于大数据,通过AI对海量数据进行处理、分析、挖掘,提取数据中的信息和知识,并通过建立模型寻求现有问题的解决方案以及实现预测等,帮助决策。
过去,BI作为统计分析类计算是数据仓库的主要应用场景,预测类计算的AI分析是数据湖的主流应用。随着湖仓一体的成熟化,AI+BI双模式将成为大数据计算分析的重要负载形式。
随着大数据技术的持续发展,离线处理与实时处理的融合、数据存储与数据分析的融合,大数据系统的性能瓶颈的突破提供了巨大的数据服务及应用的潜力。
相应的,随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,如:
(1)通用性:可直接通过SQL进行机器学习模型推理;
(2)易用性:提供简易工具实现业务利用已有数据实现机器学习模型训练;
(3)透明化:可视化数据准备低代码进行数据清洗转换;
(4)智能运维:AIOPS 能力应用在数据平台日常运维。
机器学习平台与大数据平台深度融合,融合后的机器学习大数据平台的数据处理速度和自动化水平将提升一代。而要实现机器学习与大数据的融合,根据相关论文,需要满足以下要求:
(1)隔离机制:人工智能与大数据之间不发生相互干扰的情况;
(2)代码无缝对接:使大数据平台支持机器学习的原生代码;
(3)融合框架:数据处理层、赋能层、应用层中,引入数据融合引擎,对数据处理层和赋能层进行深度融合;
而要实现机器学习生产效率的提升,需要满足以下要求:
(1)全生命周期平台化:覆盖从数据准备、模型构建、模型开发到模型生产的端对端能力;
(2)预置机器学习算法和框架:使用户可以直接调用,而无需自行构建;
(3)资源快速启动:底层资源即需即用,无需预置,使用统一的计算集群。
全无服务器部署的湖仓一体架构是指数据存储、数据查询引擎、数据仓库、数据处理框架、数据目录产品均支持无服务器部署
Serverless无服务器部署通过FaaS+BaaS提供服务,允许用户在不构建不运维一个复杂的基础设施的情况下进行开发,运行和管理应用程序。湖仓一体Serverless化后会具备两个优点:
使用流程简化
向用户提供Serverlesss部署的湖仓一体架构,使用户获得更易用的使用体验,全托管无运维的方式也帮助用户专注于业务本身,而非关心技术逻辑,符合云原生概念。
成本灵活优化
Serverless部署能够提供按需计费,不需要为等待付费,可以做到更高效的资源利用率。对于使用随时间变化大的企业是更具性价比的。
无服务器部署已经成为了头部厂商在湖仓产品系列竞逐的产品特性,用以更好的支持用户需求:
(1)亚马逊云通过具备Serverless能力的Redshift+EMR+MSK+Glue+Athena+Amazon Lake Formation实现Serverless全无服务器部署的湖仓一体;
(2)华为云Stack+DLI Serverless+FusionInsight MRS+DWS实现Serverless化部署的大数据体系;
(3)阿里云的DLA通过核心组件Lakehouse、Serverless Spark、Serverless SQL打造云原生+Serverless+数据库与大数据一体化架构Maxcompute;
(4)其他Serverless湖仓产品还有Databricks Serverless SQL、Azure Synapse Analytics Serverless、移动云云原生Lakehouse等。
数据管理解决方案厂商需要以用户体验为中心,从数据仓库、数据湖、湖仓方案、IaaS相关等维度持续深耕产品技术
在市场用户对数据仓库要求更高的灵活性,并对数据湖要求更高的成长性的背景下,“湖仓一体”概念是业内厂商与用户对未来大数据架构的共同认知。
纵然在概念层面具备显著的优势,湖仓一体在实际生产中依然面临由于技术或服务的不成熟而带来的众多问题。潜在用户出于对使用体验与稳定性的担忧、或对替换成熟稳定的原系统的投入产出价值不清晰,而保持谨慎观望。
厂商需要以用户体验为中心,从多维度切入持续深耕产品技术。
中国数据管理解决方案市场处于稳步增长阶段,竞争主体将根据其在创新能力及成长能力两个维度的表现划分梯队
本报告分别通过市场增长指数与创新指数两大主要维度衡量业内优秀厂商竞争实力。
增长指数衡量竞争主体在数据管理解决方案增长维度的竞争力,包括:数据存储、数据准备、机器学习分析支撑、湖仓一体整合、多维度多框架数据分析等创新技术或能力;而创新指数则衡量竞争主体在数据管理解决方案的竞争力,位置越靠右侧,数据管理解决方案的兼容性、查询&计算性能表现、灾备安全、服务支持、产业链生态、数据服务场景解决方案等市场增长能力及水平。
沙利文联合头豹研究院根据增长指数和创新指数两大评估维度,通过数据存储、数据准备、数据分析支撑、数据分析、流程编排管理、兼容性、性能、灾备建设、服务支持、开源社区与产业链生态及数据服务场景解决方案十一项大指标,对中国数据管理解决方案市场竞争力多因素分层次评估。
由“创新指数”和“增长指数” 综合评分,亚马逊云科技、华为云、阿里云、金山云、星环科技、浪潮云位列中国数据管理解决方案市场领导者梯队。
亚马逊云科技:亚马逊云科技智能湖仓架构升级,通过Amazon Athena与Amazon Lake Formation打破数据孤岛,构建云中统一的数据治理底座,Amazon SageMaker机器学习全流程组件助力机器学习由实验转为实践,赋能业务人员探索业务敏捷创新。亚马逊云科技凭借专业深入的技术支持服务提供经历全球商业实践的产品和服务,为各行业客户提供各类数据服务场景的成熟解决方案。
华为云:华为云FusionInsight MRS智能数据湖,MRS与AI开发平台ModelArts实现数智融合,通过HetuEngine一站式交互式SQL分析引擎实现湖仓协同,提供离线、实时、逻辑三湖一集市的数据架构支撑丰富的业务场景。华为云在大数据领域引领开源坚持开放,联合1000+行业应用生态合作伙伴共建覆盖金融、运营商、互联网、泛政等领域的落地场景解决方案。
阿里云:阿里云Maxcompute适配多种数据湖仓案构建湖仓一体最佳实践,具备DB级元数据透视统一开发管理数据,与机器学习平台PAI无缝集成提供超大规模的机器学习处理能力。同时,Maxcompute与Hologres深度集成,为客户提供离线实时一体化的海量云数仓结构。结合开放开发建设和与伙伴生态产品的深度集成,为多行业用户的各种大数据场景提供多维的产品组合。
金山云:金山云云原生数据引擎KCDE的统一元数据服务LMS统一湖仓的元数据层,支持构建实时湖、离线湖、分析湖的逻辑数据湖。大数据开发治理平台KDC与机器学习平台KingAI融合,基于统一的数据底座提供一站式数据挖掘服务。金山云以多元产品矩阵构建全域云原生能力,在金融、泛互联网、医疗、公共服务行业广泛覆盖大数据云平台应用解决方案。
浪潮云:浪潮云大数据存储与分析IEMR提供多湖多仓关联计算能力,通过数据湖构建IDLF提供湖仓数据协同调用能力,与机器学习平台IMLP深度适配并提供200+预置模型和100+即开即用的行业模型调用能力。浪潮云IEMR具备高安全保障的灾备建设水平,IBP数据产品线可根据业务场景提供个性化产品交付形态,对电信、医疗、金融、政务等行业及其他大型国企提供丰富的场景解决方案和实施经验。
星环科技:星环科技大数据基础平台TDH通过提供统一的SQL编译器Transwarp Quark和统一的分布式计算引擎Transwarp Nucleon等打造湖仓一体解决方案,突破传统Hadoop+MPP混合架构实现批流协同、多模融合的特性。星环科技在大数据各流程任务均提供组件化的技术服务和高度解耦的成熟产品,落地案例覆盖了金融、政务、交通、运营商、邮政、医疗、能源等行业。
文章来源:弗若斯特沙利文 (如有侵权,请联系删除)