社区
Hadoop生态社区
帖子详情
实际生产中,用spark sql开发的程序比用hive脚本执行的调度快多少?
Container123
2020-03-25 05:00:35
如题,用spark sql开发程序代替用hive脚本执行调度,速度上能快多少呢?
希望有这方面经验的大神们解答一下。
...全文
394
2
打赏
收藏
实际生产中,用spark sql开发的程序比用hive脚本执行的调度快多少?
如题,用spark sql开发程序代替用hive脚本执行调度,速度上能快多少呢? 希望有这方面经验的大神们解答一下。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
DanielMaster
2020-03-31
打赏
举报
回复
稍微比一下就知道了,一般Tez跑50s的东西,spark 2s
Container123
2020-03-25
打赏
举报
回复
上面描述不严谨
,同一个逻辑,差不多相同的数据量
Scriptis:Scriptis用于交互式数据分析,包括
脚本
开发
(
SQL
,Py
spark
,
Hive
QL),任务提交(
Spark
,
Hive
),UDF,功能,资源管理和智能诊断
圣经 英文| 介绍 Scriptis用于交互式数据分析,包括
脚本
开发
(
SQL
,Py
spark
,
Hive
QL),任务提交(
Spark
,
Hive
),UDF,功能,资源管理和智能诊断。 产品特点
脚本
编辑器:支持多语言,自动完成,语法突出显示和
SQL
语法错误纠正。 计算引擎:Scriptis基于Linkis,可与
Spark
,
Hive
,Python等多个计算引擎连接。 运行时功能:完整的作业生命周期显示和智能诊断。 结果集:多个结果集支持,自定义结果集别名和一键式可视化。 数据库服务:用于数据库管理和文件(CVS,Excel)导入表或从表导出的功能。 上下文:UDF,自定义变量以及函数的管理和共享。 控制台:引擎参数,任务/引擎管理和资源隔离/显示的自定义设置。
快
速开始 阅读
快
速入门 与类似
调度
系统的比较 文件资料 社区 如果您希望立即得到答复,请向我们提出问题,或通过微信和QQ扫描以下QR码加入我们的小组: 执照 Scriptis受Apache 2.0许可。 有关详细信息,请参见LICENSE文件。
海豚
调度
,dolphinscheduler-data-quality-dev-SNAPSHOT最新版本3.1.1
DolphinScheduler(海豚
调度
) dolphinscheduler-data-quality-dev-SNAPSHOT数据质量jar包 添加配置信息:
/conf/common.properties data-quality.jar.name=dolphinscheduler-data-quality-dev-SNAPSHOT.jar 这里的data-quality.jar.name请根据
实际
打包的名称来填写, 如果单独打包data-quality的话,记得修改包名和data-quality.jar.name一致。 如果是老版本升级使用,运行之前需要先
执行
sql
更新
脚本
进行数据库初始化。 如果要用到My
SQL
数据,需要将pom.xml
中
My
SQL
的scope注释掉 当前只测试了My
SQL
、Postgre
SQL
和
HIVE
数据源,其他数据源暂时未测试过
Spark
需要配置好读取
Hive
元数据,
Spark
不是采用jdbc的方式读取
Hive
大数据架构师应该做到的.pdf
⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分同步会更新场景落地 ---- ---- ---- 技能图 ⼤数据架构师该掌握的技能 主要分为两块 与 ⼀.平台建设 ⼆.数据搜集 三.数据价值 四.数据安全 五.质量保障 六.个⼈素质 七.技术能⼒ ⼋.产品与运营思维 九.团队建设管理能⼒ ⼗.⼈⽣开悟之路 硬能⼒ ⼀:平台建设 1.⾏业平台 1)⼤平台 亚马逊云 阿⾥云 腾讯云 ⽹易云 华为云 2)⼩平台 国云 国双 青云 勤思 3)专业⼯具平台 4)APP分析平台 2.技术选型 1) 2) 3) 4) 3.平台架构 1)HDP Core(平台核⼼也是Hadoop core) HDFS(存储) MapReduce(批处理) Yarn(基础资源
调度
) 负责集群资源的统⼀管理和
调度
单节点资源管理和使⽤ 应⽤
程序
管理 对任务运⾏环境的抽象 ⽀持运⾏长应⽤
程序
和短应⽤
程序
⽀持docker fpga 期待更细粒度的资源控制 对⽐Mesos Oozie(任务
调度
编排) 平台
调度
的基础保障 hadoop 各种任务的使⽤与
调度
对⽐ Azkaban Airflow Slider(
调度
⽀持 新版已经集成yarn) 2)Enterpise Data Warehouse(企业数据仓库) Pig(基础
脚本
服务) ⽤类
sql
语⾔保证mr执⾏顺畅 pig latin 的执⾏环境
Hive
(数据仓库存储) 基础数据仓库(ods gdm dw app dim) 基础ETL的运⾏实例 OLAP的数据存储(kylin) 各种数据的
hive
外表⽤于查询 对⽐impala Druid(adhoc⽅案 实时多维查询和分析) 已处理数⼗亿事件和TB级数据 实时查询分析 ⾼可⽤、⾼容错、⾼性能 交互式聚合和
快
速探究⼤量数据 为OLAP⼯作流的探索性分析⽽构建,⽀持各种过滤、聚合和查询 对⽐ drill mdrill 等 Tez(简化增强
hive
) Sqoop(数据导⼊导出⼯具) 3)Data sclence(数据科学)
Spark
(内存通⽤并⾏计算) 推荐相关 数据清洗 特征抽取 预测相关 对⽐ flink storm flink
Spark
sql
(结构化数据处理)
Spark
streaming(
spark
流式处理) Zeppelin(界⾯分析挖掘⼯具) 基于R和python的单机界⾯使⽤⼯具(分析挖掘) 基于
spark
kafka 的界⾯操作⼯具 基于预测数据的使⽤与展现 ⽀持pandas numpy ⽀持R ⽀持
hive
hbase
spark
spark
sql
spark
streaming ⽀持keras matplotlib py
sql
4)Operational data store(操作KV存储) Hbase(kv数据存储) Phoenix(hbase 类
sql
查询) 5)Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道 平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理 记录操作⽇志到solr Atlas(元数据溯源与数据治理⼯具) ⼤数据平台下各种操作的元数据记录 数据打标签(对于维度 指标 ETL等) 可查询
hive
storm
spark
sqoop oozie nifi 元数据,可⾃定义实现⾃⼰的需要查看和维护的⼯具 数据流转流程的图像化展现 元数据操作记录与各种信息查询 6)Stream procressing(流式计算) 6)Stream procressing(流式计算) Storm(实时数据处理分析) Kafka(分布式发布订阅消息系统) 拖放可视化设计,
开发
,部署和管理流式数据分析应⽤
程序
进⾏事件关联,上下⽂衔接,复杂模式匹配,分析聚合以及创建警报/通知 MiNiFi(边缘数据处理) 数据产⽣的源头收集和处理数据 通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信 可以数据溯源(Data Provenance) 可以集
中
管理和下发Agents java agent c++ agent 7)Operations(平台运维⼯具) Ambari(⼤数据平台管理⼯具) Ambari Metrics(监控平台各类服务及主机的运⾏情况) Ambari Infra Zookeeper(基础分布式保证⼯具) Solr(搜索应⽤ 操作⽇志存储) 8)Data operation platform(数据操作平台) NiFi(数据 ETL 数据流处理) ⽇志清洗 业务数据⼊库 基础数据(my
sql
binlog业务库 )ETL 部分外部数据 ⾃定义数据接⼊⽅式 ⾃定义数据流程处理 数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N
一百八十一、
Hive
——海豚
调度
Hive
SQL
任务时当
Hive
的计算引擎是mr或
spark
时
脚本
的区别(踩坑,附截图)
海豚
调度
Hive
SQL
任务时当
Hive
的计算引擎是mr或
spark
时
脚本
的区别(踩坑,附截图)
Spark
Sql
转换成Task
执行
和 InsertInto
Hive
Table写入
hive
表数据 源码分析
对于
spark
的InsertInto
Hive
Table,结果rdd的每个partition的数据都有相应的task负责数据写入,而每个task都会在目标
hive
表的location目录下的.
hive
-staging_
hive
*/-ext-10000目录
中
创建相应的临时的staging目录,当前task的所有数据都会先写入到这个staging目录
中
;(2)task
执行
,写入数据到.
hive
-staging_
hive
_*/-ext-10000目录((1) 创建相关临时目录,提交task
调度
执行
。
Hadoop生态社区
20,809
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章