实际生产中，用spark sql开发的程序比用hive脚本执行的调度快多少？

Container123 2020-03-25 05:00:35

如题，用spark sql开发程序代替用hive脚本执行调度，速度上能快多少呢？
希望有这方面经验的大神们解答一下。

...全文

394 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

DanielMaster 2020-03-31

打赏
举报

稍微比一下就知道了，一般Tez跑50s的东西，spark 2s

Container123 2020-03-25

打赏
举报

上面描述不严谨

，同一个逻辑，差不多相同的数据量

圣经英文| 介绍 Scriptis用于交互式数据分析，包括脚本开发（SQL，Pyspark，HiveQL），任务提交（Spark，Hive），UDF，功能，资源管理和智能诊断。产品特点脚本编辑器：支持多语言，自动完成，语法突出显示和SQL语法错误纠正。计算引擎：Scriptis基于Linkis，可与Spark，Hive，Python等多个计算引擎连接。运行时功能：完整的作业生命周期显示和智能诊断。结果集：多个结果集支持，自定义结果集别名和一键式可视化。数据库服务：用于数据库管理和文件（CVS，Excel）导入表或从表导出的功能。上下文：UDF，自定义变量以及函数的管理和共享。控制台：引擎参数，任务/引擎管理和资源隔离/显示的自定义设置。快速开始阅读快速入门与类似调度系统的比较文件资料社区如果您希望立即得到答复，请向我们提出问题，或通过微信和QQ扫描以下QR码加入我们的小组：执照 Scriptis受Apache 2.0许可。有关详细信息，请参见LICENSE文件。

DolphinScheduler(海豚调度) dolphinscheduler-data-quality-dev-SNAPSHOT数据质量jar包添加配置信息：/conf/common.properties data-quality.jar.name=dolphinscheduler-data-quality-dev-SNAPSHOT.jar 这里的data-quality.jar.name请根据实际打包的名称来填写, 如果单独打包data-quality的话，记得修改包名和data-quality.jar.name一致。如果是老版本升级使用，运行之前需要先执行sql更新脚本进行数据库初始化。如果要用到MySQL数据，需要将pom.xml中MySQL的scope注释掉当前只测试了MySQL、PostgreSQL和HIVE数据源，其他数据源暂时未测试过 Spark需要配置好读取Hive元数据，Spark不是采用jdbc的方式读取Hive

⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分同步会更新场景落地 ---- ---- ---- 技能图⼤数据架构师该掌握的技能主要分为两块与⼀.平台建设⼆.数据搜集三.数据价值四.数据安全五.质量保障六.个⼈素质七.技术能⼒⼋.产品与运营思维九.团队建设管理能⼒⼗.⼈⽣开悟之路硬能⼒⼀：平台建设 1.⾏业平台 1）⼤平台亚马逊云阿⾥云腾讯云⽹易云华为云 2）⼩平台国云国双青云勤思 3）专业⼯具平台 4）APP分析平台 2.技术选型 1） 2） 3） 4） 3.平台架构 1）HDP Core(平台核⼼也是Hadoop core) HDFS(存储) MapReduce(批处理) Yarn(基础资源调度) 负责集群资源的统⼀管理和调度单节点资源管理和使⽤应⽤程序管理对任务运⾏环境的抽象⽀持运⾏长应⽤程序和短应⽤程序⽀持docker fpga 期待更细粒度的资源控制对⽐Mesos Oozie(任务调度编排) 平台调度的基础保障 hadoop 各种任务的使⽤与调度对⽐ Azkaban Airflow Slider(调度⽀持新版已经集成yarn) 2）Enterpise Data Warehouse(企业数据仓库) Pig(基础脚本服务) ⽤类sql语⾔保证mr执⾏顺畅 pig latin 的执⾏环境 Hive(数据仓库存储) 基础数据仓库(ods gdm dw app dim) 基础ETL的运⾏实例 OLAP的数据存储(kylin) 各种数据的hive外表⽤于查询对⽐impala Druid(adhoc⽅案实时多维查询和分析) 已处理数⼗亿事件和TB级数据实时查询分析⾼可⽤、⾼容错、⾼性能交互式聚合和快速探究⼤量数据为OLAP⼯作流的探索性分析⽽构建，⽀持各种过滤、聚合和查询对⽐ drill mdrill 等 Tez(简化增强hive) Sqoop(数据导⼊导出⼯具) 3）Data sclence(数据科学) Spark(内存通⽤并⾏计算) 推荐相关数据清洗特征抽取预测相关对⽐ flink storm flink Spark sql(结构化数据处理) Spark streaming(spark流式处理) Zeppelin(界⾯分析挖掘⼯具) 基于R和python的单机界⾯使⽤⼯具(分析挖掘) 基于spark kafka 的界⾯操作⼯具基于预测数据的使⽤与展现⽀持pandas numpy ⽀持R ⽀持hive hbase spark sparksql sparkstreaming ⽀持keras matplotlib pysql 4）Operational data store(操作KV存储) Hbase(kv数据存储) Phoenix(hbase 类sql查询) 5）Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理记录操作⽇志到solr Atlas(元数据溯源与数据治理⼯具) ⼤数据平台下各种操作的元数据记录数据打标签(对于维度指标 ETL等) 可查询hive storm spark sqoop oozie nifi 元数据，可⾃定义实现⾃⼰的需要查看和维护的⼯具数据流转流程的图像化展现元数据操作记录与各种信息查询 6）Stream procressing(流式计算) 6）Stream procressing(流式计算) Storm(实时数据处理分析) Kafka(分布式发布订阅消息系统) 拖放可视化设计，开发，部署和管理流式数据分析应⽤程序进⾏事件关联，上下⽂衔接，复杂模式匹配，分析聚合以及创建警报/通知 MiNiFi(边缘数据处理) 数据产⽣的源头收集和处理数据通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信可以数据溯源(Data Provenance) 可以集中管理和下发Agents java agent c++ agent 7）Operations(平台运维⼯具) Ambari(⼤数据平台管理⼯具) Ambari Metrics(监控平台各类服务及主机的运⾏情况) Ambari Infra Zookeeper(基础分布式保证⼯具) Solr(搜索应⽤操作⽇志存储) 8）Data operation platform(数据操作平台) NiFi(数据 ETL 数据流处理) ⽇志清洗业务数据⼊库基础数据(mysql binlog业务库 )ETL 部分外部数据⾃定义数据接⼊⽅式⾃定义数据流程处理数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N

海豚调度HiveSQL任务时当Hive的计算引擎是mr或spark时脚本的区别（踩坑，附截图）

对于spark的InsertIntoHiveTable，结果rdd的每个partition的数据都有相应的task负责数据写入，而每个task都会在目标hive表的location目录下的.hive-staging_hive*/-ext-10000目录中创建相应的临时的staging目录，当前task的所有数据都会先写入到这个staging目录中；（2）task执行，写入数据到.hive-staging_hive_*/-ext-10000目录（（1）创建相关临时目录，提交task调度执行。

Hadoop生态社区

20,809

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章