请教一个sparksql插入hive表的问题

Yoga_L1n 2019-02-12 06:50:04

代码是spark.sql("insert into.......select... ")结构，执行jar包后发现任务很慢，资源分的不小，后来看了下执行情况，发现任务分配有些问题，调试了下还是不行，请大神指点一二

...全文

455 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

zyyoung 2019-02-19

打赏
举报

回复

批量插入，减小碎片

ginger__ 2019-02-14

打赏
举报

回复

注册成临时表的那个DataFrame重分区，减少分区数量，这样hive表中的文件数据就是分区的数据量，没有那么多小文件应该就快了

4qw 2019-02-13

打赏
举报

回复

干嘛一定插入到hive,spark sql执行完成后将结果保留到hadoop环境;
hive 通过外部表的形式链接过去就可以了吧

Yoga_L1n 2019-02-12

打赏
举报

回复

求大神啊！！！！

关于Java的面试题：关于虚拟机的面试题： 1.hashmap底层? 2.Java进程中断怎么处理? 3.介绍下面向对象? 4.介绍下多态? 5.方法重载和重写? 6.这俩哪个属于多态? 7.说下多线程? 8.实现方式有哪些，区别? 9.同步锁互斥，为什么常量不能做锁? 10.说下反射，都是做什么的? 11.反射机制怎么实现的? 12.linkedlist和arraylist的区别? 13.h...

** 大数据面试题记录* ** （一）一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看，通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点 2) client将文件分块，并行存储到不同

第1题我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218U022017/1/236U012017/2/224要求使用SQL统计出每个用户的累积访问次数，如下表所示：用户id月份小计累积u012017-011111u012017-021223u022017-011212u032017-0188u042017-0133第2题京东有5

ConcurrentHashMap 是怎么实现的？答：concurrent 包中线程安全的哈希表，采用分段锁，可以理解为把一个大的 Map 拆分成 N 个小的 HashTable，根据 key.hashCode() 来决定把 key 放到哪个 HashTabl 中。在 ConcurrentHashMap 中，就是把 Map 分成了 N 个 Segment，put 和 get 的时候，都是现根...

1. ConcurrentHashMap 是怎么实现的？答：concurrent 包中线程安全的哈希表，采用分段锁，可以理解为把一个大的 Map 拆分成 N 个小的 HashTable，根据 key.hashCode() 来决定把 key 放到哪个 HashTabl 中。在 ConcurrentHashMap 中，就是把 Map 分成了 N 个 Segment，put 和 get 的时候，都是...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章