请教一个sparksql插入hive表的问题

Yoga_L1n 2019-02-12 06:50:04
代码是spark.sql("insert into.......select... ")结构,执行jar包后发现任务很慢,资源分的不小,后来看了下执行情况,发现任务分配有些问题,调试了下还是不行,请大神指点一二
...全文
455 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
zyyoung 2019-02-19
  • 打赏
  • 举报
回复
批量插入,减小碎片
ginger__ 2019-02-14
  • 打赏
  • 举报
回复
注册成临时表的那个DataFrame重分区,减少分区数量,这样hive表中的文件数据就是分区的数据量,没有那么多小文件应该就快了
4qw 2019-02-13
  • 打赏
  • 举报
回复
干嘛一定插入到hive,spark sql执行完成后将结果保留到hadoop环境;
hive 通过外部表的形式链接过去就可以了吧
Yoga_L1n 2019-02-12
  • 打赏
  • 举报
回复
求大神啊!!!!

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧