实际生产中,用spark sql开发的程序比用hive脚本执行的调度快多少?

Container123 2020-03-25 05:00:35
如题,用spark sql开发程序代替用hive脚本执行调度,速度上能快多少呢?
希望有这方面经验的大神们解答一下。

...全文
394 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
DanielMaster 2020-03-31
  • 打赏
  • 举报
回复
稍微比一下就知道了,一般Tez跑50s的东西,spark 2s
Container123 2020-03-25
  • 打赏
  • 举报
回复
上面描述不严谨,同一个逻辑,差不多相同的数据量
⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分同步会更新场景落地 ---- ---- ---- 技能图 ⼤数据架构师该掌握的技能 主要分为两块 与 ⼀.平台建设 ⼆.数据搜集 三.数据价值 四.数据安全 五.质量保障 六.个⼈素质 七.技术能⼒ ⼋.产品与运营思维 九.团队建设管理能⼒ ⼗.⼈⽣开悟之路 硬能⼒ ⼀:平台建设 1.⾏业平台 1)⼤平台 亚马逊云 阿⾥云 腾讯云 ⽹易云 华为云 2)⼩平台 国云 国双 青云 勤思 3)专业⼯具平台 4)APP分析平台 2.技术选型 1) 2) 3) 4) 3.平台架构 1)HDP Core(平台核⼼也是Hadoop core) HDFS(存储) MapReduce(批处理) Yarn(基础资源调度) 负责集群资源的统⼀管理和调度 单节点资源管理和使⽤ 应⽤程序管理 对任务运⾏环境的抽象 ⽀持运⾏长应⽤程序和短应⽤程序 ⽀持docker fpga 期待更细粒度的资源控制 对⽐Mesos Oozie(任务调度编排) 平台调度的基础保障 hadoop 各种任务的使⽤与调度 对⽐ Azkaban Airflow Slider(调度⽀持 新版已经集成yarn) 2)Enterpise Data Warehouse(企业数据仓库) Pig(基础脚本服务) ⽤类sql语⾔保证mr执⾏顺畅 pig latin 的执⾏环境 Hive(数据仓库存储) 基础数据仓库(ods gdm dw app dim) 基础ETL的运⾏实例 OLAP的数据存储(kylin) 各种数据的hive外表⽤于查询 对⽐impala Druid(adhoc⽅案 实时多维查询和分析) 已处理数⼗亿事件和TB级数据 实时查询分析 ⾼可⽤、⾼容错、⾼性能 交互式聚合和速探究⼤量数据 为OLAP⼯作流的探索性分析⽽构建,⽀持各种过滤、聚合和查询 对⽐ drill mdrill 等 Tez(简化增强hive) Sqoop(数据导⼊导出⼯具) 3)Data sclence(数据科学) Spark(内存通⽤并⾏计算) 推荐相关 数据清洗 特征抽取 预测相关 对⽐ flink storm flink Spark sql(结构化数据处理) Spark streaming(spark流式处理) Zeppelin(界⾯分析挖掘⼯具) 基于R和python的单机界⾯使⽤⼯具(分析挖掘) 基于spark kafka 的界⾯操作⼯具 基于预测数据的使⽤与展现 ⽀持pandas numpy ⽀持R ⽀持hive hbase spark sparksql sparkstreaming ⽀持keras matplotlib pysql 4)Operational data store(操作KV存储) Hbase(kv数据存储) Phoenix(hbase 类sql查询) 5)Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道 平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理 记录操作⽇志到solr Atlas(元数据溯源与数据治理⼯具) ⼤数据平台下各种操作的元数据记录 数据打标签(对于维度 指标 ETL等) 可查询hive storm spark sqoop oozie nifi 元数据,可⾃定义实现⾃⼰的需要查看和维护的⼯具 数据流转流程的图像化展现 元数据操作记录与各种信息查询 6)Stream procressing(流式计算) 6)Stream procressing(流式计算) Storm(实时数据处理分析) Kafka(分布式发布订阅消息系统) 拖放可视化设计,开发,部署和管理流式数据分析应⽤程序 进⾏事件关联,上下⽂衔接,复杂模式匹配,分析聚合以及创建警报/通知 MiNiFi(边缘数据处理) 数据产⽣的源头收集和处理数据 通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信 可以数据溯源(Data Provenance) 可以集管理和下发Agents java agent c++ agent 7)Operations(平台运维⼯具) Ambari(⼤数据平台管理⼯具) Ambari Metrics(监控平台各类服务及主机的运⾏情况) Ambari Infra Zookeeper(基础分布式保证⼯具) Solr(搜索应⽤ 操作⽇志存储) 8)Data operation platform(数据操作平台) NiFi(数据 ETL 数据流处理) ⽇志清洗 业务数据⼊库 基础数据(mysql binlog业务库 )ETL 部分外部数据 ⾃定义数据接⼊⽅式 ⾃定义数据流程处理 数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N

20,809

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧