社区
Hadoop生态社区
帖子详情
关于JAVA和SPARK结合的困惑...
Evolintion
2018-03-28 05:32:47
在下是个初级JAVA,目前接手了一个任务做一个数据加工系统。拿一个连锁超市举例子,这个超市的老板通过我们的系统上传小票文件,然后我们根据文件中每一条小票上的店名,销售人员和商品信息,给这个超市老板出一个报表,比如说店销售额排名,人员销售额排名等等。但是可能文件很大,没办法一次性读到内存里计算,希望借助Spark来实现...在这里有一个困惑,就是如何使用JAVA自动将这个计算任务交给Spark并获取到结果...
...全文
591
2
打赏
收藏
关于JAVA和SPARK结合的困惑...
在下是个初级JAVA,目前接手了一个任务做一个数据加工系统。拿一个连锁超市举例子,这个超市的老板通过我们的系统上传小票文件,然后我们根据文件中每一条小票上的店名,销售人员和商品信息,给这个超市老板出一个报表,比如说店销售额排名,人员销售额排名等等。但是可能文件很大,没办法一次性读到内存里计算,希望借助Spark来实现...在这里有一个困惑,就是如何使用JAVA自动将这个计算任务交给Spark并获取到结果...
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
shiter
2018-03-31
打赏
举报
回复
打个jar包扔上去跑?
LinkSe7en
2018-03-29
打赏
举报
回复
我看你是个定时出报表的需求吧?那直接用Java写个Spark的Application,用cron定时跑就是了
第四章:
Spark
2.X算子及高级应用
1、
Spark
应用程序的配置2.
Spark
2.X Shell基本使用3.
Spark
2.X submit基本使用4.
Spark
2.X的算子5.
Spark
2.X Cache机制6.
Spark
2.X 宽依赖与窄依赖7.
Spark
2.X数据持久化机制8.
Spark
2.X参数配置调优说明
大数据最佳实践-
spark
structstreaming
您可以在Scala,
Java
,Python或R中使用Dataset / DataFrame API来表示流聚合,事件时间窗口,流到批处理联接等。计算是在同一优化的
Spark
SQL引擎上执行的。最后,该系统通过检查点和预写日志来确保端到端的一次容错...
Spark
实践 | 利用
Spark
DataSource API 实现Rest数据源
来源:http://www.jianshu.com/p/6441eaa4d064
Spark
DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用
Spark
...
Apache
Spark
技术实战(四)
spark
-submit常见问题及其解决 &CassandraRDD高并发数据读取实现剖析
编写了独立运行的
Spark
Application之后,需要将其提交到
Spark
Cluster中运行,一般会采用
spark
-submit来进行应用的提交,在使用
spark
-submit的过程中,有哪些事情需要注意的呢? 本文试就此做一个小小的总结。 ...
Spark
-Redis入门到解决执行海量数据插入、查询作业时碰到的问题
Spark
是专为大规模数据处理而设计的快速通用的计算引擎,起源于UC Berkeley AMP lab的一个研究项目。相比传统的Hadoop(MapReduce) ,
Spark
的性能快...
Hadoop生态社区
20,808
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章