社区
Spark
帖子详情
如何把RDD转换成可以广播的变量
林重言
2015-08-03 10:54:40
我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据, 而这中间数据需要被各节点共享,我该如何操作,才能把它广播出去? 详细点说是,我们根据log文件读取出所有被冻结的账户,而这些被冻结的账户需要被共享,这样的话好进行判断。
谢谢各位,小弟初入门庭,还望大家不吝指导。
...全文
386
2
打赏
收藏
如何把RDD转换成可以广播的变量
我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据, 而这中间数据需要被各节点共享,我该如何操作,才能把它广播出去? 详细点说是,我们根据log文件读取出所有被冻结的账户,而这些被冻结的账户需要被共享,这样的话好进行判断。 谢谢各位,小弟初入门庭,还望大家不吝指导。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
人生偌只如初见
2015-09-05
打赏
举报
回复
sc.broadcast
wingerliwei
2015-08-31
打赏
举报
回复
就看你各个机器是想怎么用这个数据,比如可以把他输出到HDFS中,这样每个机器再从HDFS里读取就行了。还是需要具体看你怎么用数据
Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF
本资源为网页,不是PDF Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(
RDD
S) 并行集合 外部数据集
RDD
操作
RDD
持久化 共享
变量
Broadcast Variables (
广播
变量
) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 下一步 Spark Streaming Spark Streaming 概述 一个简单的示例 基本概念 依赖 初始化 StreamingContext Discretized Streams(DStreams)(离散化流) Input DStreams 和 Receivers DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久化 CheckPointing 累加器和
广播
变量
应用程序部署 监控应用程序 性能 降低批处理的时间 设置合理的批处理间隔 内存 容错语义 迁移指南(从 0.9.1 或者更低版本至 1.x 版本) 快速跳转 Kafka 集成指南 DataFrames,Datasets 和 SQL Spark SQL 概述 SQL Datasets 和 DataFrames Spark SQL 入门指南 起始点 : SparkSession 创建 DataFrame 无类型 Dataset 操作(aka DataFrame 操作) 以编程的方式运行 SQL 查询 创建 Dataset
RDD
的互操作性 数据源 通用的 Load/Save 函数 Parquet文件 JSON Datasets Hive 表 JDBC 连接其它数据库 故障排除 性能调优 缓存数据到内存 其它配置选项 分布式 SQL引擎 运行 Thrift JDBC/ODBC 运行 Spark SQL CLI 迁移指南 从 Spark SQL 1.6 升级到 2.0 从 Spark SQL 1.5 升级到 1.6 从 Spark SQL 1.4 升级到 1.5 从 Spark SQL 1.3 升级到 1.4 从 Spark SQL 1.0~1.2 升级到 1.3 兼容 Apache Hive 参考 数据类型 NaN 语义 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 ML Pipelines(ML管道) Extracting, transforming and selecting features(特征的提取,转换和选择) Classification and regression(分类和回归) Clustering(聚类) Collaborative Filtering(协同过滤) ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整) Advanced topics(高级主题) MLlib:基于
RDD
的API Data Types -
RDD
-based API(数据类型) Basic Statistics -
RDD
-based API(基本统计) Classification and Regression -
RDD
-based API(分类和回归) Collaborative Filtering -
RDD
-based API(协同过滤) Clustering -
RDD
-based API(聚类 - 基于
RDD
的API) Dimensionality Reduction -
RDD
-based API(降维) Feature Extraction and Transformation -
RDD
-based API(特征的提取和转换) Frequent Pattern Mining -
RDD
-based API(频繁模式挖掘) Evaluation metrics -
RDD
-based API(评估指标) PMML model export -
RDD
-based API(PMML模型导出) Optimization -
RDD
-based API(最) GraphX(图形处理) Spark R 部署 集群模式概述 提交应用 Spark Standalone 模式 Spark on Mesos Spark on YARN Spark on YARN 上运行 准备 Spark on YARN 配置 调试应用 Spark 属性 重要提示 在一个安全的集群中运行 用 Apache Oozie 来运行应用程序 Kerberos 故障排查 Spark 配置 Spark 监控 指南 作业调度 Spark 安全 硬件配置 构建 Spark
spark-2.2.2安装流程
ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。 Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。 Driver:运行Application的main()函数并创建SparkContext。 Executor:执行器,在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。 SparkContext:整个应用的上下文,控制应用的生命周期。
RDD
:Spark的基本计算单元,一组
RDD
可形成执行的有向无环图
RDD
Graph。 DAG Scheduler:实现将Spark作业分解成一到多个Stage,每个Stage根据
RDD
的Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。 TaskScheduler:将任务(Task)分发给Executor执行。 Stage:一个Spark作业一般包含一到多个Stage。 Task:一个Stage包含一到多个Task,通过多个Task实现并行运行的功能。 Transformations:转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个
RDD
转换生成另一个
RDD
的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。 Actions:操作(Actions) (如:count, collect, save等),Actions操作会返回结果或把
RDD
数据写到存储系统中。Actions是触发Spark启动计算的动因。 SparkEnv:线程级别的上下文,存储运行时的重要组件的引用。 SparkEnv内创建并包含如下一些重要组件的引用。 MapOutPutTracker:负责Shuffle元信息的存储。 BroadcastManager:负责
广播
变量
的控制与元信息的存储。 BlockManager:负责存储管理、创建和查找块。 MetricsSystem:监控运行时性能指标信息。 SparkConf:负责存储配置信息。
Spark的灵魂:
RDD
和DataSet
本课重点讲解Spark 的灵魂
RDD
和DataSet。讲解
RDD
的定义、五大特性剖析及DataSet的定义和内部机制剖析;对
RDD
弹性特性七个方面进行解析;讲解
RDD
依赖关系,包括窄依赖、宽依赖; 解析Spark 中DAG 逻辑视图;对
RDD
...
Spark代码笔记03——自定义排序、自定义分区、累加器、
广播
变量
一、自定义排序 自定义排序 Spark对简单的数据类型可以直接排序,但是对于一些复杂的条件就需要用自定义排序来实现了 1.第一种定义方法: 用到了隐式转换 package scalaBase.day11 import org.apache.spark.
rdd
.
RDD
import org.apache.spark.{SparkConf, SparkContext} case class Girl(name:String,faceValue:Int,age:Int) object myOrder{ implicit val girlOrdering=new Ordering[Gi
价值上万的视频教程互联网程序开发+大数据+Hadoop、hive、Spark
lg大数据高薪训练营 HBase、 Java9 、Java10 、MySQL优化 、JVM原理 、JUC多线程、 CDH版Hadoop Impala、 Flume 、Sqoop、 Azkaban、 Oozie、 HUE、 Kettle、 Kylin 、Spark 、Mllib机器学习、 Flink、 Python、 SpringBoot、 Hadoop3.x新特性、 ClickHouse、 Kudu、 Presto 、Druid、 Ambari 、DataX、 Logstash 、Kibanna、 数据结构 Scala · Scala基础入门 · 函数式编程 · 数据结构 · 面向对象编程 · 模式匹配 · 高阶函数 · 特质 · 注解&类型参数 · 隐式转换 · 高级类型 · 案例实操 Spark Core · 安装部署 ·
RDD
概述 · 编程模型 · 持久化&检查点机制 · DAG · 算子详解 ·
RDD
编程进阶 · 累加器&
广播
变量
Spark SQL · SparkSQL · DataFrame · DataSet · 自定义
Spark
1,261
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章