社区
下载资源悬赏专区
帖子详情
浅谈spark技术,pdf版本下载
AI100_小助手
2018-04-02 09:06:26
spark技术的流程及简单的概述,又兴趣的朋友可以下载看看
相关下载链接:
//download.csdn.net/download/qq_40570699/10321283?utm_source=bbsseo
...全文
543
回复
打赏
收藏
浅谈spark技术,pdf版本下载
spark技术的流程及简单的概述,又兴趣的朋友可以下载看看 相关下载链接://download.csdn.net/download/qq_40570699/10321283?utm_source=bbsseo
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
浅谈
spark
技术
,
pdf
版本
spark
技术
的流程及简单的概述,又兴趣的朋友可以
下载
看看
浅谈
基于Apache
Spark
的网络安全入侵检测框架.
pdf
浅谈
基于Apache
Spark
的网络安全入侵检测框架.
pdf
Spark
3.0
技术
及原理
本书以数据智能为灵魂,以
Spark
2.4.X
版本
为载体,以
Spark
+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的
Spark
+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇,内核解密篇...
浅谈
数据仓库和大数据.
pdf
浅谈
数据仓库和⼤数据
浅谈
数据仓库和⼤数据 前⾔ 前⾔ 数据仓库是今年来适应利⽤数据⽀持决策分析的强烈需求⽽发展起来的数据库应⽤
技术
,诚然,数据仓库以数据库为基础,但是他在需求、 客户、体系结构与运⾏机制等⽅⾯与数据库存在重⼤的不同,Kimball说:"我们花了⼆⼗年的时间往数据库中加⼊数据,现在该是拿出来使⽤ 的时候了。" ---摘⾃数据仓库⼯具箱:维度建模(第⼆版) 1.数据仓库理解 数据仓库理解 根据笔者⾃⼰的理解,数据仓库是⼀个抽象的概念,⽽实现的载体则是我们常见的各种数据库表。⽐如传统⾏业中⽤到的Oracle、 Teradata(简称TD)、GreenPlum(简称GP),互联⽹⾏业中⽤到的Hive、
Spark
。它的⼀个主要应⽤点的体现就是我们企业中建设的数据平台 2.数据平台 数据平台&数据仓库的组成 数据仓库的组成 先宽泛的讲述下数据平台和数据仓库的组成 数据平台可划分为如下⼦平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系 统 数据仓库由于是⼀个抽象的概念所以可以简单的理解为不同粒度的数据层,⽐如:数据缓冲层(存放当⽇增量数据)、数据明细层(存放最全的 明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(⼀般就是⼀些宽表,包含多维度和指 标,⽅便⽤来做多维分析)、数据应⽤层(主要是开放给业务侧使⽤,多存放粗粒度的数据报表) 每个公司对每层的命名不⼀样,所以就不⽤什么ods,dw等来标识各个层级。 3.数仓和⼤数据的关系 数仓和⼤数据的关系 在写对数仓的理解的时候其实已经点出了数仓和⼤数据的关系,现在讲⼀下我个⼈理解的数仓演变历史以及为什么要⽤⼤数据来实现数仓。 3.1 数仓的过去 数仓的过去 数据仓库在很早的时候就被数据仓库之⽗Inmon 提出来了,按我的理解,很早的时候主要是对⾃⼰企业内部业务数据的⼀个分析决策,⽤⼀ 些传统的关系型数据库为载体,加上Kettle、Informatica、DataStage等ETL⼯具以及Biee、smartBi等报表⼯具来⽀撑企业⾃⼰的数据仓库 建设。其服务⽬标是部分企业⾼管、市场⼈员、运营⼈员等。 3.2 数仓的现在 数仓的现在 数据仓库在现在的应⽤已经远⾮以前的应⽤范围,其区别主要体现在⼀下⼏点: 1.数据源多样化 以前的数据源可能多数是来⾃企业的交易数据,但是现在则会由以下来源组成,⽐如:交易数据、⾏为数据、竟对数据、CRM、 财务数 据等 2.数据量暴涨 由于以前数据来源单⼀,数据量相⽐较现在增长不会那么快,多数的中⼩型企业使⽤⼀个⾼配的⼩机+关系型数据库即可满⾜数仓的计算 资源需求。但是现在由于数据源的多样化,导致数据量暴涨,单机的计算已经满⾜不了现有资源,但是MPP架构的数据库⼜太贵(⽐如TD), ⽽且也⽆法满⾜企业处理⾏为⽇志数据的需求。这个时候⼤数据
技术
应运⽽⽣,以hadoop+hive的
技术
处理开始占据主流。尤其是互联⽹⾏ 业的迅速发展,对其有⼀定的带动性。 3.服务对象的不同 个⼈说的以前偏向于传统⾏业,他们的服务对象偏向于⾼管、运营、财务等职能⼈员。⽽现在则会有各种各样的服务对象,⽐如:⾼管、 运营、财务等职能⼈员关注的报表必不可少,除此之外还有产品、运营等⼈关注的竟对分析以及内部风控,反欺诈等线上系统以及推荐等系 统模块的接⼝调⽤ 3.3 数仓的未来 数仓的未来 ⽬前在国外已经有⼈提出了Data Lake和Data Vault的概念。让我们拭⽬以待是否可以在国内普及应⽤~ 总结 总结 之所以出现hadoop、
spark
等⼤数据处理
技术
,数据多样化以及对数据时效性越来越⾼占主要因素,成本也是其中的⼀个因素,但是个⼈认 为占⽐很⼩,因为区别仅仅在于到底是把钱花在了机器和系统上还是花在了⼈⼒上~ 下⾯简单的对传统⾏业以及互联⽹⾏业建设数据仓库的时候⽤到的⼀些⼯具做些总结 1.传统⾏业 数据库:Oracle、DB2、TD(MPP结构,列式存储)、GP(MPP结构,列式存储)、SybaseIQ(MPP结构,列式存储)、MySql Inforbright、 MsSql、等 ETL⼯具:Informatica、DataStage、Kettle、Automation(调度平台)、SSIS、企业内部调度⼯具等 可视化⼯具:Biee、tableau、Congons、Power BI等 2.互联⽹⾏业 离线仓库架构:Sqoop+hadoop+hive/
spark
+mysql/hbase+echarts/tableau/highchars 实时架构:flume+kafka+storm/
spark
streaming+hbase/redis+echarts/tableau/highc
Postgresql中国用户大会 2016(PG大象会)所有PPT汇总.zip
文档内包含的PPT有: CK Tan-VITESSE DATA-DeepGreen DB- 性能优化、开发方向.
pdf
楼方鑫-平民软件-
Spark
_over_OneProxy_Postgresql.
pdf
Mason Sharp-华为-Scaling with PostgreSQL 9.6 and Postgres-XL.
pdf
陆公瑜-Pivotal- Greenplum 5.0及规划.
pdf
Sylvain - CodeBunker - The power of PostgreSQL exposed with automatically generated API endpoints.
pdf
宋光旋-华东师范大学-窗口函数优化.
pdf
曾文旌-阿里云-使用 PostgreSQL 去 O 的冰与火.
pdf
孙鹏-英资教育-数据库设计中对JSON的使用.
pdf
陈飚-Cloudera-Hadoop最新结构化存储利器Kudu.
pdf
唐成-云徙科技-数据库多
版本
实现内幕.
pdf
陈飚-Cloudera-HBase佳实践及优化.
pdf
汪洋-平安科技-PG+金融架构演进之路.
pdf
陈刚-平安科技-PostgreSQL数据库源码浅析.
pdf
王鹏冲-平安科技-从ACID的D看三种主流关系型数据库.
pdf
陈旭-平安壹钱包-大数据实时流计算风云榜.
pdf
王青松-飞象数据-实现PostgreSQL逻辑复制实战.
pdf
德哥-阿里云 - PostgreSQL开发最佳实践.
pdf
王硕-瀚高软件-PostgreSQL WAL日志解析与应用.
pdf
德哥-阿里云-PostgreSQL前世今生.
pdf
叶金荣-知数堂-抽丝剥茧之MySQL疑难杂症排查.
pdf
德哥-阿里云-sharding单元化(based on postgres_fdw)最佳实践.
pdf
余星-平安壹钱包-
浅谈
PostgreSQL 高可用架构.
pdf
范孝剑-阿里云-PG优化器浅析.
pdf
张广舟-阿里云-ApsaraDB for Greenplum介绍.
pdf
高金芳-平安科技-PostgreSQL反向代理redis.
pdf
张文杰-阿里云-PostgreSQL流复制优化.
pdf
何祖文-贵州云飞-PG与智慧物流.
pdf
张文升-探探科技-PostgreSQL和探探见证四亿次心动.
pdf
姜瑞海-瀚高软件-PostgreSQL自适应流复制.
pdf
张晓通-平安壹钱包-从金融架构的视角看数据库.
pdf
赖伟-飞象数据-Sybase向PG迁移实践.
pdf
张友东-阿里云-MongoDB分布式架构演进.
pdf
兰海-武汉大学-从PostgreSQL实现Flashback谈如何内核开发.
pdf
赵振平-太阳塔科技-工业大数据初探.
pdf
李跃森-腾讯科技-PGXZ在微信支付中的应用.
pdf
钟勇-上海宝存-固态硬盘的前世今生.
pdf
梁海安-平安科技-金融级PostgreSQL数据库监控与优化.
pdf
朱贤文-文武信息-Run your PG on ZFS.
pdf
下载资源悬赏专区
12,891
社区成员
12,444,176
社区内容
发帖
与我相关
我的任务
下载资源悬赏专区
CSDN 下载资源悬赏专区
复制链接
扫一扫
分享
社区描述
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章