社区
Spark
帖子详情
spark on yarn 执行,总是会上传jar包
天水炎
2017-04-27 01:44:57
如题,每次执行任务的时候,都会有上传jar包的日志,这部分执行时长大概有10s左右,怎么能将这部分的时间优化?
sprak的配置文件中有这个配置:
spark.yarn.jars hdfs://hadoop-server-master-196:9000/spark/lib_jars/*.jar
任务的部分日志如下图:
...全文
995
2
打赏
收藏
spark on yarn 执行,总是会上传jar包
如题,每次执行任务的时候,都会有上传jar包的日志,这部分执行时长大概有10s左右,怎么能将这部分的时间优化? sprak的配置文件中有这个配置: spark.yarn.jars hdfs://hadoop-server-master-196:9000/spark/lib_jars/*.jar 任务的部分日志如下图:
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
火山1
2017-08-09
打赏
举报
回复
spark-env.sh 脚本里面添加一行 export SPARK_DIST_CLASSPATH=”SPARK_DIST_CLASSPATH:/usr/lib/path/*” 项目中用到的jar包放到这个目录下就行了
天水炎
2017-04-28
打赏
举报
回复
自己顶一下,别沉了
第三章:
Spark
原理
1.
Spark
2.X入门 与
Spark
1.X 对比 2.
Spark
2.X运行机制 3.基本术语 4.运行架构 5.
Spark
On Standalnoe部署与实例分析 6.
Spark
on
YARN
实例解析
spark
-on-
yarn
jar包
优化
spark
-on-
yarn
jar包
问题 submit运行过程中
会
把
spark
的
jar包
上传
到HDFS的/user/hadoop/.
spark
Staging路径下面,运行完毕进行释放,
上传
的这个过程实际上比较耗费时间 WARN
yarn
.Client: Neither
spark
.
yarn
.jars nor
spark
.
yarn
.archive is set, falling back to uploading libraries under
SPARK
_HOME.
spark
.
yarn
.jars和spar
解决
spark
on
yarn
每次都传递一堆jars的问题
问题复现
spark
-submit \ --master
yarn
\ --deploy-mode cluster \ --class com.bigdata.homework.standby.JDBCApp \ --jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \ -...
Spark
Launcher提交jar任务到
spark
-
yarn
import org.apache.
spark
.launcher.
Spark
Launcher; import java.io.IOException; /** * Created by zheng on 2020-04-07. */ public class
Spark
Client { public static void main(String[] args) throws I...
Spark
On
YARN
使用时
上传
jar包
过多导致磁盘空间不够。。。
今天测试过程中发现
YARN
Node变成Unhealthy了,后来定位到硬盘空间不够。。。。。 通过查找大于100M的文件时发现有N多个
spark
-assembly-1.4.0-SNAPSHOT-hadoop2.5.0-cdh5.3.1.
jar包
,大小为170多M, 每提交一个application到
yarn
上
执行
,就
会
上传
一个assembly包,application个数一多,磁盘就本占用了...
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章