浅谈spark技术,pdf版本下载

AI100_小助手 2018-04-02 09:06:26
spark技术的流程及简单的概述,又兴趣的朋友可以下载看看
相关下载链接://download.csdn.net/download/qq_40570699/10321283?utm_source=bbsseo
...全文
543 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
浅谈数据仓库和⼤数据 浅谈数据仓库和⼤数据 前⾔ 前⾔ 数据仓库是今年来适应利⽤数据⽀持决策分析的强烈需求⽽发展起来的数据库应⽤技术,诚然,数据仓库以数据库为基础,但是他在需求、 客户、体系结构与运⾏机制等⽅⾯与数据库存在重⼤的不同,Kimball说:"我们花了⼆⼗年的时间往数据库中加⼊数据,现在该是拿出来使⽤ 的时候了。" ---摘⾃数据仓库⼯具箱:维度建模(第⼆版) 1.数据仓库理解 数据仓库理解 根据笔者⾃⼰的理解,数据仓库是⼀个抽象的概念,⽽实现的载体则是我们常见的各种数据库表。⽐如传统⾏业中⽤到的Oracle、 Teradata(简称TD)、GreenPlum(简称GP),互联⽹⾏业中⽤到的Hive、Spark。它的⼀个主要应⽤点的体现就是我们企业中建设的数据平台 2.数据平台 数据平台&数据仓库的组成 数据仓库的组成 先宽泛的讲述下数据平台和数据仓库的组成 数据平台可划分为如下⼦平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系 统 数据仓库由于是⼀个抽象的概念所以可以简单的理解为不同粒度的数据层,⽐如:数据缓冲层(存放当⽇增量数据)、数据明细层(存放最全的 明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(⼀般就是⼀些宽表,包含多维度和指 标,⽅便⽤来做多维分析)、数据应⽤层(主要是开放给业务侧使⽤,多存放粗粒度的数据报表) 每个公司对每层的命名不⼀样,所以就不⽤什么ods,dw等来标识各个层级。 3.数仓和⼤数据的关系 数仓和⼤数据的关系 在写对数仓的理解的时候其实已经点出了数仓和⼤数据的关系,现在讲⼀下我个⼈理解的数仓演变历史以及为什么要⽤⼤数据来实现数仓。 3.1 数仓的过去 数仓的过去 数据仓库在很早的时候就被数据仓库之⽗Inmon 提出来了,按我的理解,很早的时候主要是对⾃⼰企业内部业务数据的⼀个分析决策,⽤⼀ 些传统的关系型数据库为载体,加上Kettle、Informatica、DataStage等ETL⼯具以及Biee、smartBi等报表⼯具来⽀撑企业⾃⼰的数据仓库 建设。其服务⽬标是部分企业⾼管、市场⼈员、运营⼈员等。 3.2 数仓的现在 数仓的现在 数据仓库在现在的应⽤已经远⾮以前的应⽤范围,其区别主要体现在⼀下⼏点: 1.数据源多样化 以前的数据源可能多数是来⾃企业的交易数据,但是现在则会由以下来源组成,⽐如:交易数据、⾏为数据、竟对数据、CRM、 财务数 据等 2.数据量暴涨 由于以前数据来源单⼀,数据量相⽐较现在增长不会那么快,多数的中⼩型企业使⽤⼀个⾼配的⼩机+关系型数据库即可满⾜数仓的计算 资源需求。但是现在由于数据源的多样化,导致数据量暴涨,单机的计算已经满⾜不了现有资源,但是MPP架构的数据库⼜太贵(⽐如TD), ⽽且也⽆法满⾜企业处理⾏为⽇志数据的需求。这个时候⼤数据技术应运⽽⽣,以hadoop+hive的技术处理开始占据主流。尤其是互联⽹⾏ 业的迅速发展,对其有⼀定的带动性。 3.服务对象的不同 个⼈说的以前偏向于传统⾏业,他们的服务对象偏向于⾼管、运营、财务等职能⼈员。⽽现在则会有各种各样的服务对象,⽐如:⾼管、 运营、财务等职能⼈员关注的报表必不可少,除此之外还有产品、运营等⼈关注的竟对分析以及内部风控,反欺诈等线上系统以及推荐等系 统模块的接⼝调⽤ 3.3 数仓的未来 数仓的未来 ⽬前在国外已经有⼈提出了Data Lake和Data Vault的概念。让我们拭⽬以待是否可以在国内普及应⽤~ 总结 总结 之所以出现hadoop、spark等⼤数据处理技术,数据多样化以及对数据时效性越来越⾼占主要因素,成本也是其中的⼀个因素,但是个⼈认 为占⽐很⼩,因为区别仅仅在于到底是把钱花在了机器和系统上还是花在了⼈⼒上~ 下⾯简单的对传统⾏业以及互联⽹⾏业建设数据仓库的时候⽤到的⼀些⼯具做些总结 1.传统⾏业 数据库:Oracle、DB2、TD(MPP结构,列式存储)、GP(MPP结构,列式存储)、SybaseIQ(MPP结构,列式存储)、MySql Inforbright、 MsSql、等 ETL⼯具:Informatica、DataStage、Kettle、Automation(调度平台)、SSIS、企业内部调度⼯具等 可视化⼯具:Biee、tableau、Congons、Power BI等 2.互联⽹⾏业 离线仓库架构:Sqoop+hadoop+hive/spark+mysql/hbase+echarts/tableau/highchars 实时架构:flume+kafka+storm/spark streaming+hbase/redis+echarts/tableau/highc
文档内包含的PPT有: CK Tan-VITESSE DATA-DeepGreen DB- 性能优化、开发方向.pdf 楼方鑫-平民软件-Spark_over_OneProxy_Postgresql.pdf Mason Sharp-华为-Scaling with PostgreSQL 9.6 and Postgres-XL.pdf 陆公瑜-Pivotal- Greenplum 5.0及规划.pdf Sylvain - CodeBunker - The power of PostgreSQL exposed with automatically generated API endpoints.pdf 宋光旋-华东师范大学-窗口函数优化.pdf 曾文旌-阿里云-使用 PostgreSQL 去 O 的冰与火.pdf 孙鹏-英资教育-数据库设计中对JSON的使用.pdf 陈飚-Cloudera-Hadoop最新结构化存储利器Kudu.pdf 唐成-云徙科技-数据库多版本实现内幕.pdf 陈飚-Cloudera-HBase佳实践及优化.pdf 汪洋-平安科技-PG+金融架构演进之路.pdf 陈刚-平安科技-PostgreSQL数据库源码浅析.pdf 王鹏冲-平安科技-从ACID的D看三种主流关系型数据库.pdf 陈旭-平安壹钱包-大数据实时流计算风云榜.pdf 王青松-飞象数据-实现PostgreSQL逻辑复制实战.pdf 德哥-阿里云 - PostgreSQL开发最佳实践.pdf 王硕-瀚高软件-PostgreSQL WAL日志解析与应用.pdf 德哥-阿里云-PostgreSQL前世今生.pdf 叶金荣-知数堂-抽丝剥茧之MySQL疑难杂症排查.pdf 德哥-阿里云-sharding单元化(based on postgres_fdw)最佳实践.pdf 余星-平安壹钱包-浅谈PostgreSQL 高可用架构.pdf 范孝剑-阿里云-PG优化器浅析.pdf 张广舟-阿里云-ApsaraDB for Greenplum介绍.pdf 高金芳-平安科技-PostgreSQL反向代理redis.pdf 张文杰-阿里云-PostgreSQL流复制优化.pdf 何祖文-贵州云飞-PG与智慧物流.pdf 张文升-探探科技-PostgreSQL和探探见证四亿次心动.pdf 姜瑞海-瀚高软件-PostgreSQL自适应流复制.pdf 张晓通-平安壹钱包-从金融架构的视角看数据库.pdf 赖伟-飞象数据-Sybase向PG迁移实践.pdf 张友东-阿里云-MongoDB分布式架构演进.pdf 兰海-武汉大学-从PostgreSQL实现Flashback谈如何内核开发.pdf 赵振平-太阳塔科技-工业大数据初探.pdf 李跃森-腾讯科技-PGXZ在微信支付中的应用.pdf 钟勇-上海宝存-固态硬盘的前世今生.pdf 梁海安-平安科技-金融级PostgreSQL数据库监控与优化.pdf 朱贤文-文武信息-Run your PG on ZFS.pdf

12,891

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧