如何把RDD转换成可以广播的变量

林重言 2015-08-03 10:54:40

我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据，而这中间数据需要被各节点共享，我该如何操作，才能把它广播出去？详细点说是，我们根据log文件读取出所有被冻结的账户，而这些被冻结的账户需要被共享，这样的话好进行判断。

谢谢各位，小弟初入门庭，还望大家不吝指导。

...全文

383 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

人生偌只如初见 2015-09-05

打赏
举报

回复

sc.broadcast

wingerliwei 2015-08-31

打赏
举报

回复

就看你各个机器是想怎么用这个数据，比如可以把他输出到HDFS中，这样每个机器再从HDFS里读取就行了。还是需要具体看你怎么用数据

Broadcast Variables （广播变量） Accumulators （累加器）部署应用到集群中使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移下一步 Spark Streaming Spark Streaming 概述...

Transformations：转换(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录...

本课重点讲解Spark 的灵魂RDD 和DataSet。讲解RDD 的定义、五大特性剖析及DataSet的定义和内部机制剖析；对RDD 弹性特性七个方面进行解析；讲解RDD 依赖关系，包括窄依赖、宽依赖；解析Spark 中DAG 逻辑视图；对RDD...

Spark对简单的数据类型可以直接排序，但是对于一些复杂的条件就需要用自定义排序来实现了 1.第一种定义方法：用到了隐式转换 package scalaBase.day11 import org.apache.spark.rdd.RDD import org.apache....

lg大数据高薪训练营 HBase、 Java9 、Java10 、MySQL优化、JVM原理、JUC多线程、 CDH版Hadoop Impala、 Flume 、Sqoop、 ...· 累加器&广播变量 Spark SQL · SparkSQL · DataFrame · DataSet · 自定义

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章