求教一个解决方法,打算想多个spark作业并发,不知道哪种比较好?

deepthinkers 2018-05-03 04:53:22
首先是,打算shell中写脚本然后,用crontab。
或者说用scala的akka的actor实现多线程这种的。
或者说用其他什么办法,总感觉想要多个这种scala的sparksql并发,没有什么太好的办法,正在考虑用oozie,有没有有这方面经验的同仁来点意见。参考一下。
...全文
65348 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
妖果yaoyao 2020-01-20
  • 打赏
  • 举报
回复
这一块儿我完成了,用的是scala里线程池的方式,通过oncomplete回调方式实现作业的关停
LinkSe7en 2018-10-23
  • 打赏
  • 举报
回复
引用 3 楼 qq_24380005 的回复:
[quote=引用 1 楼 link0007 的回复:] 首先,初始化SparkContext是个很重型的工作,特别是有些数据需要预热(加载到内存)的情况; 其次,SparkContext是线程安全的,可以多线程调用; 第三,配置好DynamicAllocation和调度资源池可以多个Job并发执行;
您好,请问具体怎么在一个spark application中进行多个job并发执行呢?急求啊!需要改源码吗?[/quote] 如果是spark standalone集群部署,参阅http://spark.apache.org/docs/latest/configuration.html#dynamic-allocation 并根据你自己的集群情况对spark-default.properties进行调整配置。如果是yarn,参阅yarn的queue。
一只螺丝钉 2018-10-18
  • 打赏
  • 举报
回复
引用 1 楼 link0007 的回复:
首先,初始化SparkContext是个很重型的工作,特别是有些数据需要预热(加载到内存)的情况;
其次,SparkContext是线程安全的,可以多线程调用;
第三,配置好DynamicAllocation和调度资源池可以多个Job并发执行;

您好,请问具体怎么在一个spark application中进行多个job并发执行呢?急求啊!需要改源码吗?
deepthinkers 2018-05-11
  • 打赏
  • 举报
回复
感谢~~~打算用串行跑spark作业。并发就不考虑了
LinkSe7en 2018-05-03
  • 打赏
  • 举报
回复
首先,初始化SparkContext是个很重型的工作,特别是有些数据需要预热(加载到内存)的情况; 其次,SparkContext是线程安全的,可以多线程调用; 第三,配置好DynamicAllocation和调度资源池可以多个Job并发执行;

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧