社区
李鹏程的课程社区_NO_1
数据仓库原理&实战精讲
帖子详情
Azkaban自动化调度
桥路丶
博客专家认证
2023-01-13 02:55:14
课时名称
课时知识点
Azkaban自动化调度
Azkaban自动化调度
...全文
69
回复
打赏
收藏
Azkaban自动化调度
课时名称课时知识点Azkaban自动化调度Azkaban自动化调度
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Azkaban
任务
调度
安装配置和使用
Azkaban
是由Linkedin公司推出的一个开源的批量工作流任务
调度
器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Azkaban
的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。
Azkaban
使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下特点: 兼容任何版本的hadoop 易于使用的Web用户界面 简单的工作流的上传 方便设置任务之间的关系 工作流和任务日志记录和审计
调度
工作流 模块化和可插拔的插件机制 认证/授权(权限的工作) 能够杀死并重新启动工作流 有关失败和成功的电子邮件提醒
Azkaban
大数据任务
调度
器
实际当中经常有这些场景:每天有一个大任务,这个大任务可以分成A,B,C,D四个小任务,A,B任务之间没有依赖关系,C任务依赖A,B任务的结果,D任务依赖C任务的结果。一般的做法是,开两个终端同时执行A,B,两个都执行完了再执行C,最后再执行D。这样的话,整个的执行过程都需要人工参加,并且得盯着各任务的进度。但是我们的很多任务都是在深更半夜执行的,通过写脚本设置crontab执行。其实,整个过程类似于一个有向无环图(DAG)。每个子任务相当于大任务中的一个流,任务的起点可以从没有度的节点开始执行,任何没有通路的节点之间可以同时执行,比如上述的A,B。总结起来的话,我们需要的就是一个工作流的
调度
器,而
azkaban
就是能解决上述问题的一个
调度
器。
azkaban
调度
azkaban
调度
系统二次开发
Azkaban
工作
调度
框架安装包
Azkaban
工作
调度
框架安装包
azkaban
大数据
调度
任务.zip
azkaban
大数据
调度
任务.zip
李鹏程的课程社区_NO_1
1
社区成员
40
社区内容
发帖
与我相关
我的任务
李鹏程的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章