kettle可以在一个job里并行执行多个transform,请问有上限吗

baidu_35404528 2016-06-23 08:01:21

如题，有两个疑问
1. 一次性最多可以并行执行多少个转换
2. 如果设置时间段去自动运行，比如在一个job里有多个trans,五分钟自动运行一个trans，第一个trans还没有跑完，就开始跑第二个trans,那么此时，第一个没有执行完的trans是继续等待其他trans执行完后再开始执行这个trans还是会出现异常的错误。

...全文

7414 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

这是小林家啊 2020-07-16

打赏
举报

回复

为什么我运行两个，第二个等第一个完成才跑

小城印象 2018-12-29

打赏
举报

回复

说可以的都是键盘侠？试过吗就过来大放厥词

wd031415 2017-03-21

打赏
举报

回复

楼主您好！当前我也遇到同样问题，希望一个job下执行多个转换，是怎么设计job的，麻烦贴个图，谢谢

快跑蜗牛哥 2016-09-10

打赏
举报

回复

没有上限， job 按步骤来，并行的不分先后

勇敢607 2016-09-07

打赏
举报

回复

没有上限，物理机足够好，内存资源好，IO性能好，问题不大。

cdutfly 2016-06-24

打赏
举报

回复

理论上是没有上线的只要你的物理机支持。第二个问题每次启动的都是单独线程只要你每个没有依赖关系都是不受影响的

1、ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以掌握一个ETL工具的使用，必不可少。Kettle作为ETL工具是非常强大和方便的。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle中文名称叫水壶，该项目的主程序员MATT希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。2、Clickhouse 是俄罗斯的“百度”Yandex公司在2016年开源的，一款针对大数据实时分析的高性能分布式数据库，与之对应的有hadoop生态hive，Vertica和百度出品的palo。这是战斗民族继nginx后，又开源的一款“核武器”。Hadoop 生态体系解决了大数据界的大部分问题，当然其也存在缺点。Hadoop 体系的最大短板在于数据处理时效性。基于 Hadoop 生态的数据处理场景大部分对时效要求不高，按照传统的做法一般是 T + 1 的数据时效。即 Trade + 1，数据产出在交易日 + 1 天。ClickHouse 的产生就是为了解决大数据量处理的时效性。独立于Hadoop生态圈。3、Superset 是一款由 Airbnb 开源的“现代化的企业级 BI（商业智能） Web 应用程序”，其通过创建和分享 dashboard，为数据分析提供了轻量级的数据查询和可视化方案。 Superset 的前端主要用到了 React 和 NVD3/D3，而后端则基于 Python 的 Flask 框架和 Pandas、SQLAlchemy 等依赖库，主要提供了这几方面的功能：01、集成数据查询功能，支持多种数据库，包括 MySQL、PostgresSQL、Oracle、SQL Server、SQLite、SparkSQL 等，并深度支持 Druid。02、通过 NVD3/D3 预定义了多种可视化图表，满足大部分的数据展示功能。如果还有其他需求，也可以自开发更多的图表类型，或者嵌入其他的 JavaScript 图表库（如 HighCharts、ECharts）。03、提供细粒度安全模型，可以在功能层面和数据层面进行访问控制。支持多种鉴权方式（如数据库、OpenID、LDAP、OAuth、REMOTE_USER 等）。基于Kettle+Clickhouse+Superset构建亿级大数据实时分析平台课程将联合这三大开源工具，实现一个强大的实时分析平台。该系统以热门的互联网电商实际业务应用场景为案例讲解，对电商数据的常见实战指标处理使用kettle等工具进行了详尽讲解，具体指标包括：流量分析、新增用户分析、活跃用户分析订单分析、团购分析。能承载海量数据的实时分析，数据分析涵盖全端（PC、移动、小程序）应用。项目代码也是具有很高的商业价值的，大家可以根据自己的业务进行修改,便可以使用。本课程包含的技术：开发工具为：IDEAKettleClickhouseSupersetBinlogCanalKafkaHbaseHadoopZookeeperFlinkSpringBootSpringCouldPythonAnconaMySQL等课程亮点：1.与企业对接、真实工业界产品2.强大的ETL工具Kettle全流程讲解实现3.ClickHouse高性能列式存储数据库4.Superset现代化的企业级BI可视化5.数据库实时同步解决方案6.集成Flink实时数据转换解决方案7.主流微服务SpringBoot后端系统8.互联网大数据企业热门技术栈9.支持海量数据的实时分析10.支持全端实时数据分析11.全程代码实操，提供全部代码和资料12.提供答疑和提供企业技术方案咨询

从它们的输入跳中读取数据，并发处理过的数据写到输入跳中，知道输入跳中不再有数据，就中止步骤的运行，当所有步骤都中止了，整个转换也就中止了（执行顺序要与数据流向分开，因为它们都是并行的操作）。ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少，这里我们要学习的ETL工具是Kettle！缺点是如果转换比较多了，一旦需要修改数据源，每个转换都要进行改动，十分麻烦。

本文主要以Kettle概述、Kettle开发环境部署、mac m1 kettle安装、linux kettle安装、kettle集群安装部署、kettle输入、kettle输出、kettle转换、kettle批量加载、kettle流程、kettle脚本、kettle的Java代码案例、kettle查询控件、kettle连接控件、kettle映射控件、kettle统计控件、kettle应用、kettle整合大数据、kettle streaming控件、kettle作业、kettle调度、kettle变量和参数

Hive优化、Hive搭建、Hive操作命令、Hive自定义函数、UDF、UDAF、UDTF 动态分区创建创建表如下插入表时，需要在最后的字段后面添加上想要设置动态分区的字段，如下是使用指定格式的createTime字段做动态分区。（3）分区、分桶 Bucket Hive会针对某一个列进行桶的组织，通常对列值做hash。例如：mysql存储的数据有限，一般记录存到上亿或十亿以上性能不太好。因为一张表太大了，达到mysql支持的上限了。要想存完整数据，就要进行分库（把一张表拆分成

3）限制笛卡尔积的查询。不幸的是，Hive并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。> HashShuffle有个弊端，如果数据的key是倾斜的，会导致Task的不同分区写出数据量是不同的，处理的任务压力不均衡，导致Shuffle过程迟迟无法结束（压力都在某个分区上，其它分区都完事了）由于只有这2个算子，复杂的任务，`很难以1个MapReduce程序得到结果`，一般都是些多个MR，第一个MR走Map->Reduce后，产出结果，第二个MR接着读取上一个的结果继续走M->R。

7,388

社区成员

6,742

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章