社区
Hadoop生态社区
帖子详情
spark怎么开发任务方便
y1006597541
2019-01-29 04:06:40
请教一下大家spark任务都是怎么开发的,现在我是在本地写好任务然后放到集群上测试的,这样子开发速度慢,请教一下大家在开发的时候都用什么手段。
问题一:大家怎么开发spark任务,比如记得有些人提过在大数据集群内网安装ubuntu系统,在上面安装idea;或者idea远程连接大数据集群开发?
问题二:spark-streaming该怎么开发方便,spark任务还能在spark shell里面一步步来,spark-streaming不能debug吗?
...全文
260
2
打赏
收藏
spark怎么开发任务方便
请教一下大家spark任务都是怎么开发的,现在我是在本地写好任务然后放到集群上测试的,这样子开发速度慢,请教一下大家在开发的时候都用什么手段。 问题一:大家怎么开发spark任务,比如记得有些人提过在大数据集群内网安装ubuntu系统,在上面安装idea;或者idea远程连接大数据集群开发? 问题二:spark-streaming该怎么开发方便,spark任务还能在spark shell里面一步步来,spark-streaming不能debug吗?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
伟大的一校之长
2019-02-25
打赏
举报
回复
不知道你所谓的方便是指什么意思,只是单纯说代码变少了,还是说开发起来更简单,如果说开发的话还是在Linux上面最方便,我现在是在ubuntu系统上装了一个idea开发
西門吹牛__Linux
2019-02-23
打赏
举报
回复
Spark任务快速开发的话,Zeppelin了解一下,持久化的SparkContext,直接敲代码运行。
电光石火间体验
Spark
3.0
开发
实战
在大数据和AI紧密协同时代,最佳的AI系统依赖海量数据才能构建出高度复杂的模型,海量数据需要借助Al才能挖掘出终极价值。本书以数据智能为灵魂,以
Spark
2.4.X版本为载体,以
Spark
+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的
Spark
+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇,内核解密篇基于
Spark
源码,从一个实战案例入手,循序渐进地全面解析
Spark
2.4.X版本的新特性及
Spark
内核源码;商业案例篇选取
Spark
开发
中最具代表性的经典学习案例,在案例中综合介绍
Spark
的大数据技术;性能调优篇覆盖
Spark
在生产环境下的所有调优技术;
Spark
+ AI内幕解密篇讲解深度学习动手实践,通过整合
Spark
、PyTorch以及TensorFlow揭秘
Spark
上的深度学习内幕。本课程基于《
Spark
大数据商业实战三部曲》第二版,以
Spark
3.0新版本为载体,讲解第一章的内容。
查看在运行的
spark
任务
通过
Spark
Web界面,用户可以实时查看
Spark
应用程序的运行状态、作业执行情况、
任务
调度情况等重要信息,帮助用户更好地监控和调优
Spark
应用程序。下面通过一个示例代码,演示如何使用Python编写一个
Spark
应用程序,并同时展示如何通过
Spark
Web界面和日志文件来查看
任务
信息。除了通过
Spark
Web界面查看
任务
信息外,您还可以通过查看
Spark
的日志文件来获取
任务
的更详细信息。
Spark
提供了一个Web界面,可以
方便
地查看正在运行的
Spark
应用程序和
任务
的详细信息。
Spark
02:
Spark
运行
任务
三种方式
spark
-shell 实现了用户可以逐行输入代码,进行操作的功能。即可以不像Java一样,编写完所有代码,然后编译才能运行。
spark
-shell 支持。交互环境 和 python交互环境,在学习测试中可以使用
spark
-shell 进行API学习。
spark
-shell会自动创建
spark
Context。注意:需要先启动
spark
standalone集群。比如:需要连接数据库,无法在本地调试的情况。会启动一个
spark
任务
。
spark
提交
任务
流程
spark
提交代码的两种方式:Standalone、Yarn。
使用azkaban调度
spark
任务
这篇文章主要向大家介绍使用azkaban调度
spark
任务
,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。 Azkaban是一种相似于Oozie的工作流控制引擎,能够用来解决多个Hadoop(或
Spark
等)离线计算
任务
之间的依赖关系问题。 也能够用其代替cron来对周期性
任务
进行调度,而且更为直观,可靠,同时提供了美观的可视化管理界面。 下文将对azkaban对
spark
离线
任务
调度进行简要说明。 一. 简介 该部份内容可参考官方文档:http://azkaban.github..
Hadoop生态社区
20,811
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章