mapPartitions 内调用外部程序的问题

someone1999 2016-09-02 02:12:50
我希望在rdd的mapPartition函数内进行如下数据处理:
1. 每个rdd的partition存入executor所在的worker节点本地文件,
2. 调用worker节点的命令行程序 mycmd.!! 该命令行程序以1中生成的文件为输入,输出写到指定的文件
这个我调用的是 scala.sys.process._ 内
“ my command program”.!!
在scala下,这步是没有问题的
3. 读取解析2中的输出文件到rdd返回给driver

以上问题出在第二步,exitCode=50

请教有遇到同样问题的朋友吗?
...全文
503 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧