如何把RDD转换成可以广播的变量

林重言 2015-08-03 10:54:40

我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据，而这中间数据需要被各节点共享，我该如何操作，才能把它广播出去？详细点说是，我们根据log文件读取出所有被冻结的账户，而这些被冻结的账户需要被共享，这样的话好进行判断。

谢谢各位，小弟初入门庭，还望大家不吝指导。

...全文

493 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

人生偌只如初见 2015-09-05

打赏
举报

回复

sc.broadcast

wingerliwei 2015-08-31

打赏
举报

回复

就看你各个机器是想怎么用这个数据，比如可以把他输出到HDFS中，这样每个机器再从HDFS里读取就行了。还是需要具体看你怎么用数据

Spark三大数据结构 RDD 分布式数据集广播变量：分布式只读共享变量累加器：分布式只写共享变量下面是累加器和广播变量的总结，不算是最好的，希望大家包涵

RDD特点： 1、自动的进行内存和磁盘的切换 2、基于Lineage的高效容错（第n个节点出错，会从第n-1个节点回复，血统容错） 3、 Task如果失败会自动进行特定次数的重试（默认4次） 4、

Apache Spark RDD相关知识面试题

大数据处里技术大数据angelbaby spark技术rdd

RDD初级TUT.zip

1,274

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章