kafka自动化管理与分布式状态系统导论下载

weixin_39821051 2019-10-08 02:00:32
kafka自动化管理与分布式状态系统导论 kafka自动化管理与分布式状态系统导论
相关下载链接://download.csdn.net/download/xb_duan/10840500?utm_source=bbsseo
...全文
8 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
大数据处理平台 汇报人: 刘宏志 liuhz@pku.edu.cn 北京大学 软件与微电子学院 提纲 动机:为什么需要大数据处理平台 大数据处理平台的特点 大数据处理平台的架构 三种不同大数据的处理 传统计算:单机计算 特点: 小数据 + 大量复杂的计算和分析 缺点: 依赖于单机性能:CPU + RAM (摩尔定律) 难以处理海量数据 分布式计算 基本思想: 使用一组计算机协调完成一项工作 分布式系统开发:MPI(消息传递接口) 总共287个函数 MPI_Send( ) 发送消息, MPI_Recv ( )接收消息 缺点:开发困难 任务依赖关系复杂,容易出现死锁 数据交换时需要同步 系统的局部故障难以处理 分布式数据存储 通常采用NAS或SAN 数据在需要时被复制到计算节点 DAS: Direct-Attached Storage NAS: Network Attached Storage SAN: Storage Area Network 大数据时代 纽交所每天产生超过1T的交易数据 (2008年) Facebook存储照片约100亿张,大小约为1PB 硬盘访问速度: 100MB/s 读取1T的数据: 2.5小时 数据瓶颈 问题总结 传统单机计算: 计算资源有限,难以处理海量数据 传统分布式系统开发: 任务依赖关系复杂,容易出现死锁 数据交换时需要同步 系统的局部故障难以处理 传统分布式数据存储与访问: 数据"一致性"难以保证 数据在需要时被复制到计算节点,数据访问瓶颈 大数据处理平台的特点 通过分布式计算框架来实现 提供高效的计算模型和简单的编程接口 可扩展性:通过增加资源以满足不断增加的性能和功能需求 容错能力:考虑系统的不可靠性,支持出现错误后自动恢复 高效可靠I/O:缓解数据访问瓶颈问题,提高执行效率 大数据处理平台技术架构 数据采集层 数据处理层 … 批量采集 网络爬虫 流采集 分布式文 件系统 关系 数据库 NoSQL 数据库 数据存储层 机器学习 数据挖掘 搜索引擎 批量处理引擎 流处理引擎 图处理引擎 可视化 数据查询 统计分析 大数据 处理平台 … 服务封装层 业务数据 互联网数据 物联网数据 数据源 … 引擎 数 据 安 全 与 隐 私 保 护 … 基于开源系统的大数据处理平台 SparkS QL Spark Streaming MLib GraphX MapReduce Hive Storm Giraph Spark HDFS Swift Kafka Sqoop Flume Scrapy 数据采集系统: Sqoop 从传统数据库导数据;Scrapy 并行爬虫框架;Flume 日志采集、聚合和传输 数据存储系统: HDFS 分布式文件系统;Swift 云存储服务;Kafka 消息系统,类似于消息队列 计算引擎: MapReduce 批量数据处理引擎;Storm 流式处理引擎;Giraph 并行图处理系统; Spark 通用大数据处理引擎,高效地支持批量处理、流式处理、图处理 数据分析工具: Hive和Spark SQL数据仓库;Spark Streaming流式计算;MLib机器学习;GraphX图处理 批量大数据处理 Hadoop 基本思想:本地化计算 每个节点只处理其本地数据,避免网络上的大量数据传输 "山不来就我, 我便去就山" 应用开发:written in high-level 开发者无需考虑网络编程、时间依赖等 数据分布 数据复制多份存放不同节点以增加可用性和可靠性 特点:高容错性 + 高扩展性 Apache Hadoop Apache软件基金会下面的一个开源项目 一个分布式系统基础框架 HDFS: Hadoop分布式文件系统,负责数据存储 MapReduce:一种面向大规模数据并行处理的计 算模型和框架,负责计算 HDFS HDFS: Hadoop Distributed File System 构建于本地文件系统之上,例如:ext3, xfs等 特点:多备份、一次写入(不允许修改) MapReduce 基本思想: 分而治之: 数据被切分成许多独立分片,被多个Map任务并行处理 计算向数据靠拢: 计算程序被分发到数据节点,在本地计算 Dean, S. & Ghemawat, S., "MapReduce: Simplified Data Processing on Large Clusters", OSDI'04 实例:微博年度热词统计 某一年度所有微博内容中各个词出现的次数 根据次数进行排序,排名前TopK的词作为年度热词 第 一 步 : 数 据 划 分 ( split ) 实例:微博年度热词统计(续) 某一年度所有微博内容中各个词出现的次数 根据次数进行排序,排名前TopK的词作为年度热

12,797

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧