社区
Spark
帖子详情
如何把RDD转换成可以广播的变量
林重言
2015-08-03 10:54:40
我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据, 而这中间数据需要被各节点共享,我该如何操作,才能把它广播出去? 详细点说是,我们根据log文件读取出所有被冻结的账户,而这些被冻结的账户需要被共享,这样的话好进行判断。
谢谢各位,小弟初入门庭,还望大家不吝指导。
...全文
449
2
打赏
收藏
如何把RDD转换成可以广播的变量
我把 SparkContext instance 转成RDD 经过处理得到想要的中间数据, 而这中间数据需要被各节点共享,我该如何操作,才能把它广播出去? 详细点说是,我们根据log文件读取出所有被冻结的账户,而这些被冻结的账户需要被共享,这样的话好进行判断。 谢谢各位,小弟初入门庭,还望大家不吝指导。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
人生偌只如初见
2015-09-05
打赏
举报
回复
sc.broadcast
wingerliwei
2015-08-31
打赏
举报
回复
就看你各个机器是想怎么用这个数据,比如可以把他输出到HDFS中,这样每个机器再从HDFS里读取就行了。还是需要具体看你怎么用数据
spark 累加器,
广播
变量
.docx
Spark三大数据结构
RDD
分布式数据集
广播
变量
:分布式只读共享
变量
累加器:分布式只写共享
变量
下面是累加器和
广播
变量
的总结,不算是最好的,希望大家包涵
RDD
使用基础
RDD
特点: 1、 自动的进行内存和磁盘的切换 2、 基于Lineage的高效容错(第n个节点出错,会从第n-1个节点回复,血统容错) 3、 Task如果失败会自动进行特定次数的重试(默认4次) 4、
Apache Spark
RDD
面试题
Apache Spark
RDD
相关知识面试题
spark
rdd
技术
大数据处里技术 大数据angelbaby spark技术
rdd
RDD
初级TUT.zip
RDD
初级TUT.zip
Spark
1,269
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章