用spark提供的java API写的程序怎么远程提交到集群上运行。

愁容骑士z 2019-01-13 06:57:39

小弟最近在做一个机器学习平台，想通过前台选择数据源、算法、参数之类的东西，由后台程序提交到spark集群上调用sparkML库来跑出结果，然后把结果返回之后在前台渲染出效果。实验室之前有搭spark集群，这两天看了一下java提交任务上去spark集群的东西，似乎都是要先把东西打jar包，再传服务器通过spark-submit，这样跟需求就不符了，恳求各位使用java调用过spark的大侠答疑解惑。委实是之前没用过这方面的使用经验。之前有找过一些代码如下。



public class TestUtil {

    public static void main(String[] args){



        System.setProperty("user.name", "root");

        SparkConf conf = new SparkConf().setAppName("Spark Java API 学习")

                .setMaster("spark://211.87.227.79:7077");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> users = sc.textFile("hdfs://211.87.227.79:8020/input/wordcount.txt");

        System.out.println(users.first());

    }



}

看了spark的UI这个任务确实也提交上去了，但是idea的控制台一直重复地报这一段。

sparkUI如图

要是有大侠可以解决，可以有偿，留联系方式就行。

...全文

768 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

A8888888880 2019-10-24

打赏
举报

回复

RivenDong 2019-09-08

打赏
举报

回复

在本地远程调试Spark的话，可以使用.setJars直接把你生成的jar包提交上去，十分的方便。

mengder（志和） 2019-09-04

打赏
举报

回复

楼主是否以有解决方案？

我先森 2019-01-25

打赏
举报

回复

两个问题：第一个你是说你的程序远程发送到集群上分布式运行，还是说仅仅调用集群上的资源，而实际运行是本地计算机。
第一种类：你查一下spark-yarn运行方式，其中有一种是远程提交，这个意思就是将你的程序远程提交到集群分布式运行，第二种的话就简单了，local[*]

BigBangBug 2019-01-17

打赏
举报

回复

如果是平台的话一般都是写个简单的Web系统通过上传jar包，后台通过rest方式访问spark服务地址提交的

4qw 2019-01-14

打赏
举报

回复

我有一个方案,我没写过类似的,但觉得方案还是可行的,你加我QQ吧 457259802,就是个方案而已,是否行得通,还不好说呢

(word完整版)windows下非submit-方式运行spark-on-yarn(CDH集群).doc

原始用的jetty做的http接口，最近有时间，研究了下spring boot + scala + spark做大数据计算

SparkJava实践使用Java的Spark练习代码有关代码，请参考/ Project / src / main / java / com / virtualpairprogrammers /

很好的很详细的讲解大数据的相关知识，是一个很好的学校的课件和大家分享

基于Java的分布式计算的研究

1,273

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章