关于JAVA和SPARK结合的困惑...

Evolintion 2018-03-28 05:32:47

在下是个初级JAVA，目前接手了一个任务做一个数据加工系统。拿一个连锁超市举例子，这个超市的老板通过我们的系统上传小票文件，然后我们根据文件中每一条小票上的店名，销售人员和商品信息，给这个超市老板出一个报表，比如说店销售额排名，人员销售额排名等等。但是可能文件很大，没办法一次性读到内存里计算，希望借助Spark来实现...在这里有一个困惑，就是如何使用JAVA自动将这个计算任务交给Spark并获取到结果...

...全文

591 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

shiter 2018-03-31

打赏
举报

回复

打个jar包扔上去跑？

LinkSe7en 2018-03-29

打赏
举报

回复

我看你是个定时出报表的需求吧？那直接用Java写个Spark的Application，用cron定时跑就是了

1、Spark 应用程序的配置2.Spark 2.X Shell基本使用3.Spark 2.X submit基本使用4.Spark 2.X的算子5.Spark 2.X Cache机制6.Spark 2.X 宽依赖与窄依赖7.Spark 2.X数据持久化机制8.Spark 2.X参数配置调优说明

您可以在Scala，Java，Python或R中使用Dataset / DataFrame API来表示流聚合，事件时间窗口，流到批处理联接等。计算是在同一优化的Spark SQL引擎上执行的。最后，该系统通过检查点和预写日志来确保端到端的一次容错...

来源：http://www.jianshu.com/p/6441eaa4d064Spark DataSource API 的提出使得各个数据源按规范实现适配，那么就可以高效的利用Spark...

编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-submit的过程中，有哪些事情需要注意的呢？本文试就此做一个小小的总结。 ...

Spark 是专为大规模数据处理而设计的快速通用的计算引擎，起源于UC Berkeley AMP lab的一个研究项目。相比传统的Hadoop(MapReduce) ，Spark的性能快...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章