spark怎么开发任务方便

y1006597541 2019-01-29 04:06:40

请教一下大家spark任务都是怎么开发的，现在我是在本地写好任务然后放到集群上测试的，这样子开发速度慢，请教一下大家在开发的时候都用什么手段。
问题一：大家怎么开发spark任务，比如记得有些人提过在大数据集群内网安装ubuntu系统，在上面安装idea；或者idea远程连接大数据集群开发？
问题二：spark-streaming该怎么开发方便，spark任务还能在spark shell里面一步步来，spark-streaming不能debug吗？

...全文

260 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

伟大的一校之长 2019-02-25

打赏
举报

回复

不知道你所谓的方便是指什么意思,只是单纯说代码变少了,还是说开发起来更简单,如果说开发的话还是在Linux上面最方便,我现在是在ubuntu系统上装了一个idea开发

西門吹牛__Linux 2019-02-23

打赏
举报

回复

Spark任务快速开发的话，Zeppelin了解一下，持久化的SparkContext，直接敲代码运行。

在大数据和AI紧密协同时代，最佳的AI系统依赖海量数据才能构建出高度复杂的模型，海量数据需要借助Al才能挖掘出终极价值。本书以数据智能为灵魂，以Spark 2.4.X版本为载体，以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心，对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇，内核解密篇基于Spark源码，从一个实战案例入手，循序渐进地全面解析Spark 2.4.X版本的新特性及Spark内核源码;商业案例篇选取Spark开发中最具代表性的经典学习案例，在案例中综合介绍Spark的大数据技术;性能调优篇覆盖Spark在生产环境下的所有调优技术; Spark+ AI内幕解密篇讲解深度学习动手实践，通过整合Spark、PyTorch以及TensorFlow揭秘Spark上的深度学习内幕。本课程基于《Spark大数据商业实战三部曲》第二版，以Spark 3.0新版本为载体，讲解第一章的内容。

通过Spark Web界面，用户可以实时查看Spark应用程序的运行状态、作业执行情况、任务调度情况等重要信息，帮助用户更好地监控和调优Spark应用程序。下面通过一个示例代码，演示如何使用Python编写一个Spark应用程序，并同时展示如何通过Spark Web界面和日志文件来查看任务信息。除了通过Spark Web界面查看任务信息外，您还可以通过查看Spark的日志文件来获取任务的更详细信息。Spark提供了一个Web界面，可以方便地查看正在运行的Spark应用程序和任务的详细信息。

spark-shell 实现了用户可以逐行输入代码，进行操作的功能。即可以不像Java一样，编写完所有代码，然后编译才能运行。spark-shell 支持。交互环境和 python交互环境，在学习测试中可以使用spark-shell 进行API学习。spark-shell会自动创建sparkContext。注意：需要先启动spark standalone集群。比如：需要连接数据库，无法在本地调试的情况。会启动一个spark任务。

spark提交代码的两种方式：Standalone、Yarn。

这篇文章主要向大家介绍使用azkaban调度spark任务,主要内容包括基础应用、实用技巧、原理机制等方面，希望对大家有所帮助。 Azkaban是一种相似于Oozie的工作流控制引擎，能够用来解决多个Hadoop（或Spark等）离线计算任务之间的依赖关系问题。也能够用其代替cron来对周期性任务进行调度，而且更为直观，可靠，同时提供了美观的可视化管理界面。下文将对azkaban对spark离线任务调度进行简要说明。一. 简介该部份内容可参考官方文档：http://azkaban.github..

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章