Greenplum 5.0问世:全世界首个开源、多站点数据平台,专为高级分析而打造

brianlugongyu 2017-09-25 12:13:18
加精
Greenplum 5.0问世:全世界首个开源、多站点数据平台,专为高级分析而打造

原创 2017-09-22 CESAR ROJAS Pivotal


世界上最具创新意识的大型企业都已部署领先的大规模并行分析数据平台Pivotal Greenplum,帮助他们解决最具战略意义的分析挑战。这些挑战包括欺诈管理、风险分析以及网络安全和物联网(IoT)。如果使用传统的数据平台,严格来说是不可能完成这些以及其他重要分析工作的,或者所需的成本过于高昂。2015年,Pivotal决定开放Greenplum的源代码,此举让数据仓库和分析行业大为震动。

今天,我们非常激动地宣布,这个适用于高级分析的强大、灵敏和任务关键型数据平台又推出创新之作:Pivotal Greenplum 5.0。

这个主要版本包含以下三项重要的新功能和改进功能:
1.多云部署。除了目前支持的内部部署选项之外,Greenplum 5.0现已获得认证,可在Amazon Web Services (AWS)、Microsoft Azure、Google云端平台(GCP)、VMWare vSphere和OpenStack上提供。Pivotal还在所有这些平台上提供部署协助和托管服务。

2.集成的分析。Greenplum 5.0 提供一个适用于下一代高级分析(机器学习、图形、文本、地理空间)以及传统(BI/报告)工作负载的扩展环境,从而消除了各种分析孤岛。

3.快速部署分析创新。开源社区的创新与Pivotal Engineering的敏捷开发实践相结合,意味着客户和社区可以更快地交付分析创新。


多云数据分析
在您需要的任意位置运行分析
2017年,对很多企业来说,支持在多云环境中运行分析是一项重要的要求。

造成这一局面的主要原因在于,企业都在根据项目情况以递进方式在项目中采用云。有的时候,企业中的不同部门需要灵活性,以便实例化和关闭他们各自在Amazon Web Services (AWS)、Microsoft Azure、Google云端平台(GCP)或私有云中的分析环境。他们希望根据易用度、性能和总体拥有成本来为每个项目和工作负载自由选择最合适的云平台。同样重要的是,企业需要多云环境所赋予的弹性和灾难恢复能力。分析的现在和未来都离不开多云。

与传统的企业数据仓库(EDW)和新型的“云”数据仓库不同,Greenplum平台的所有优化都是在软件中进行的,不需要依赖专属的硬件和/或网络配置。

这让Greenplum 5.0成为一个灵活、强大而且与基础架构无关的平台,可在您所需的任意位置运行,包括:

所有公有云:AWS、Azure和GCP,采用“自带使用授权”(BYOL)和按小时计费的机制
私有云:VMware vSphere和OpenStack
内部(专用硬件):Dell EMC DCA 设备、Dell EMC Blueprints、HP和Cisco认证的配置,以及客户供应的硬件

当您选择在哪里运行分析平台时,像Greenplum 5.0这样与基础架构无关的平台具备很多优势:
1.帮助避免云/硬件供应商锁定,让您的企业可以按最具竞争力的价格使用最优秀的基础架构。

2.让企业灵活采用云,因为企业可以将指定的分析工作迁移到云中,同时按照业务、管制或其他要求将其他工作保留在本地。

3.为每个项目或独立环境(ETL、模型构建、测试、评分、BI)轻松部署最佳、最合适的基础架构,帮助您的分析用户(ETL开发人员、数据科学家、分析师)高效工作、专注于业务需求。

4.在AWS或Azure Marketplace中运行时,可以在几分钟内快速实例化新的群集,而且不会影响现有的环境。


集成的分析:ML、图形、地理空间以及更多
一个平台即可满足所有计算密集型的复杂分析需求
在各种新的数据源问世之前,EDW曾是最佳位置,可以通过它提供尽可能接近全方位的分析视图。近些年来,很多企业部署了与EDW截然不同的替代分析方案,目的是从企业数据中获得更多有价值的洞察信息。
这些替代方案包括:
云数据仓库
机器学习框架
图形数据库
地理空间工具
文本分析环境

有些时候,这些新的方案会导致非常复杂的分析孤岛,难以与现有的EDW集成,因此严重制约了整个企业的信息获得和创新。

与传统的EDW以及新的替代方案不同,Greenplum 5.0将传统和高级分析融入一个扩展的分析平台之中,从而消除了数据孤岛。


以下是Greenplum 5.0中集成的一些接口和运算程序:

1.开源、并行机器学习和图形分析:Apache MADlib是一个用于可扩展和并行分析的开源库。它在Greenplum 5.0中提供机器学习、数学、统计学和图形方法的数据并行实施。MADlib使用Greenplum的大规模并行处理(MPP)架构的完整计算能力来处理特大型数据集,而其他产品则因一个节点内存中能够载入的数据量而受到限制。MADlib算法还可以通过熟悉的SQL接口来调用,因此非常容易创建和使用。

2.开源、并行地理空间分析:与某些EDW中专有的地理空间功能不同,Greenplum 5.0提供基于PostGIS开源项目的大规模可扩展的地理空间分析。Pivotal充分利用活跃的PostGIS社区的力量,并与生态系统合作,持续提供GIS创新。

3.并行文本分析:Pivotal Greenplum 5.0用户有权访问GPText,它是一个由Apache Solr提供支持的文本分析引擎,已针对Greenplum的MPP架构进行了优化。GPText 2.0具备Solr的灵活性和可配置性,并将这与Greenplum的可扩展性和易用的SQL接口相结合,可以大幅简化和加快从海量原始文本数据获得信息的速度,这些数据包括半结构化和非结构化的数据(社交媒体信息流、电子邮件数据库、文档等)。

4.通过程序语言扩展(PL/X),支持常用的Python和R分析库:Greenplum 5.0可让用户使用很多语言(包括SQL、Perl、Python、R、C和Java)编写用户定义的函数(UDF),并支持在数据科学工作流中使用这些UDF的并行化和分布式扩展。而且,Greenplum用户可以在这些UDF中使用这些语言的附加程序包(即适用于Python的NLTK、适用于R的rstan)。Greenplum 5.0还针对Python和R最受欢迎的附加库提供轻松易用的安装程序。

5.使用Greenplum-Spark Connector (GSC)支持Spark:新的GSC为Spark用户(例如数据科学家)提供到Pivotal Greenplum 5.0的原生连接。GSC可让用户将数据从Greenplum高速载入Spark,并在Spark群集上运行工作负载。Spark群集上的计算结果集随后将被推送回Greenplum以进行进一步的分析和永久保存。


Greenplum 5.0及其集成的分析运算程序可让用户大规模执行分析模型,并以创纪录的速度交付真正的业务创新。例如,

1.数据库中大规模的机器学习可以向数据科学和分析团队提供一个平台来快速响应业务机会和挑战。可以在数据库中根据需要进行大规模的模型训练。可以在平台上执行模型评分,或者模型可以导出到任意位置,包括导出到在“平台即服务”(PaaS)(例如Pivotal Cloud Foundry上运行的现代化的数据微服务架构中。

2.使用新型库(Python)和运算程序(Apache Solr)并与机器学习相结合,可以处理、分析和搜索多结构的文本文档,这为评估各种各样的多结构内容提供了一个理想平台。

3.对于有地理信息系统(GIS)要求的客户(例如零售商、银行、政府部门),Greenplum 5.0提供了将地理空间分析与机器学习相结合的功能。例如,某个大型零售商可以轻松地了解顾客光顾不同门店的情况、预测哪个门店对特定商品的需求会增加,以及对不断变化的市场做出预测,所有这些都能提升顾客满意度、增加收入。通过在分析数据平台中提供这些功能,可以大规模执行分析,避免风险和采样工作。

4.数据科学家可以使用自己惯用的工具(包括Python和R)来大规模处理和分析数据,无需移动数据。

5.对于构建和部署数据科学模型,基于SQL的数据平台集成的分析可以加快交付速度。


快速部署分析创新

100%坚持开源:与PostgreSQL社区合作,快速创新
在Greenplum 5.0中,我们向Greenplum的核心中加入了3000多项PostgreSQL改进,并在很多方面提供来自PostgreSQL的新功能,包括性能、针对半结构化数据支持JSON和HSTORE,以及原生支持更多数据类型,例如Universal Unique Identifiers (UUID)和光栅地理空间模块,以用于高级地理空间分析。

除了快速交付新功能,团结PostgreSQL和Greenplum Database开源社区的力量,让我们的客户拥有了战略优势,因为他们可以掌控自己部署的软件,不受供应商制约,同时为产品方向带来开放性的影响。

敏捷开发:在Greenplum中持续交付新的分析功能
三年多来,Pivotal Greenplum工程团队一直采用Pivotal的敏捷开发实践(小型/专注的团队、结对编程、测试驱动的开发和持续集成)。这大幅加快了创新步伐,每个月都有平台的新版本上线,速度远超传统的开源和专有解决方案。没有其他分析平台可以像Pivotal Greenplum这样以极快的速度带来创新。


业界对Greenplum 5.0的评价

Pivotal Greenplum客户
“我们使用在AWS上运行的Greenplum来构建一个广告解决方案,为行业带来了颠覆性的影响。我们非常欣赏Greenplum 5提供的多云功能和全新的分析功能,希望我们与Pivotal的紧密合作会一直持续下去。”
-Conversant数据仓库副总裁John Conley

分析师
“Greenplum的创新是实实在在的。这个数据平台不断蓬勃发展,以开源软件的价格,在涉及PB级数据集的用例中提供经过验证的SQL引擎所具备的服务级别和并发性。”
-Ovum信息管理首席分析师Tony Baer

合作伙伴
“Pivotal推出的第5版Greenplum数据平台让我们的客户相信,经营业务所需的重要分析功能会不断发展壮大,完全无需担心受制于供应商,而且可以发扬开源精神。这是一个重要的版本,我们很多极富创新意识、要求很高的客户都对它展现出浓厚的兴趣。”
-Atos业务部门ZData的总裁Dan Feldhusen

Pivotal
“Pivotal Greenplum 5.0是一个巨大的进步。它是目前为止表现最出色的版本;它可以在您需要的任意位置运行;它提供一系列令人惊艳的分析功能,为商业智能和机器学习提供支持。这个版本的Greenplum不仅仅是一个数据仓库,更是一个数据平台。”
-Pivotal数据研发副总裁Elisabeth Hendrickson



关于作者

Cesar Rojas,Pivotal Greenplum的产品营销总监,负责为Greenplum制定宣传信息和市场营销策略。在加入Pivotal之前,Rojas曾担任Teradata Portfolio for Hadoop和Teradata Aster产品的产品营销总监。Rojas是一位资深分析和数据管理专家,在最大型的数据分析公司和成功的数据初创企业有着15年的工作经验。Rojas从那慕尔圣母大学获得MBA学位,攻读方向是电子商务,还拥有计算机工程学科的学士学位。

Pivotal中国研发中心微信公众号原文链接:http://mp.weixin.qq.com/s/yZ_Hciz1ai9JTy8Ff5b1Lg

...全文
7093 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
和平战马 2017-12-22
  • 打赏
  • 举报
回复
GP现在应用方面越来越方面,而且更加稳定
  • 打赏
  • 举报
回复
这个版块是没人的么。。。 版主也才0分
hkwxsy 2017-10-16
  • 打赏
  • 举报
回复
顶顶更精彩………………
islefu880629 2017-10-04
  • 打赏
  • 举报
回复
nettman 2017-10-03
  • 打赏
  • 举报
回复
weixin_40424226 2017-09-28
  • 打赏
  • 举报
回复
很可以,学习了
sg2017918 2017-09-26
  • 打赏
  • 举报
回复
我来看看
cattpon 2017-09-26
  • 打赏
  • 举报
回复
关注一下~~
qq_40396970 2017-09-26
  • 打赏
  • 举报
回复
孤客天涯 2017-09-26
  • 打赏
  • 举报
回复
wangcai919 2017-09-26
  • 打赏
  • 举报
回复
qq_38041860 2017-09-26
  • 打赏
  • 举报
回复
很可以,学习了
meihoopa 2017-09-26
  • 打赏
  • 举报
回复
太棒了啊,学习了

164

社区成员

发帖
与我相关
我的任务
社区描述
Greenplum相关内容分享专区
数据库数据库架构数据库开发 技术论坛(原bbs)
社区管理员
  • Greenplum社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧