社区
Spark
帖子详情
请教一个sparksql插入hive表的问题
Yoga_L1n
2019-02-12 06:50:04
代码是spark.sql("insert into.......select... ")结构,执行jar包后发现任务很慢,资源分的不小,后来看了下执行情况,发现任务分配有些问题,调试了下还是不行,请大神指点一二
...全文
455
4
打赏
收藏
请教一个sparksql插入hive表的问题
代码是spark.sql("insert into.......select... ")结构,执行jar包后发现任务很慢,资源分的不小,后来看了下执行情况,发现任务分配有些问题,调试了下还是不行,请大神指点一二
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zyyoung
2019-02-19
打赏
举报
回复
批量插入,减小碎片
ginger__
2019-02-14
打赏
举报
回复
注册成临时表的那个DataFrame重分区,减少分区数量,这样hive表中的文件数据就是分区的数据量,没有那么多小文件应该就快了
4qw
2019-02-13
打赏
举报
回复
干嘛一定插入到hive,spark sql执行完成后将结果保留到hadoop环境;
hive 通过外部表的形式链接过去就可以了吧
Yoga_L1n
2019-02-12
打赏
举报
回复
求大神啊!!!!
大数据面试总结《十六》--面试题规律总结
关于Java的面试题:关于虚拟机的面试题: 1.hashmap底层? 2.Java进程中断怎么处理? 3.介绍下面向对象? 4.介绍下多态? 5.方法重载和重写? 6.这俩哪个属于多态? 7.说下多线程? 8.实现方式有哪些,区别? 9.同步锁 互斥,为什么常量不能做锁? 10.说下反射,都是做什么的? 11.反射机制怎么实现的? 12.linkedlist和arraylist的区别? 13.h...
2021-06-07
** 大数据面试题记录* ** (一) 一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看,通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用namenode节点 2) client将文件分块,并行存储到不同
大数据企业面试真题汇总一
第1题我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218U022017/1/236U012017/2/224要求使用
SQL
统计出每个用户的累积访问次数,如下
表
所示:用户id月份小计累积u012017-011111u012017-021223u022017-011212u032017-0188u042017-0133第2题 京东有5
2019大数据整理版面试题
ConcurrentHashMap 是怎么实现的? 答:concurrent 包中线程安全的哈希
表
,采用分段锁,可以理解为把
一个
大的 Map 拆分成 N 个小的 HashTable,根据 key.hashCode() 来决定把 key 放到哪个 HashTabl 中。在 ConcurrentHashMap 中,就是把 Map 分成了 N 个 Segment,put 和 get 的时候,都是现根...
大数据面试2019
1. ConcurrentHashMap 是怎么实现的? 答:concurrent 包中线程安全的哈希
表
,采用分段锁,可以理解为把
一个
大的 Map 拆分成 N 个小的 HashTable,根据 key.hashCode() 来决定把 key 放到哪个 HashTabl 中。在 ConcurrentHashMap 中,就是把 Map 分成了 N 个 Segment,put 和 get 的时候,都是...
Spark
1,261
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章