spark sql 执行完毕后,落地小文件太多

qq_36584537 2017-12-15 05:46:11
执行 insert overwrite 语句,产生了200个小文件。 试过配置参数:spark.sql.shuffle.partitions=1, 但这个导致所有reduce阶段均只有一个并行度,影响了执行效率。
大家,有没有什么办法能解决这个问题呢?
...全文
3474 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
并行度决定了产生多少个文件, 要么在文件数量和并行度之间找个平衡, 要么尝试一下adaptive
  • 打赏
  • 举报
回复
coalesce(1) 望采纳
mamba10 2019-06-19
  • 打赏
  • 举报
回复
对计算完成之后的rdd,再coalesce一下
LinkSe7en 2019-05-31
  • 打赏
  • 举报
回复
如果每个文件都小于HDFS BlockSize,那还是有调整的必要,否则没必要在写入前reparation。 因为一个是会增加一次shuffle,二个如果数据集已经排序,shuffle会把顺序打乱。 所以如果真有调整的必要,建议是在写入前一个步骤插入reparation(n)。 例如 rdd.map(xxx).filter(xxx).sortBy(xxx).write(xxx) 在sortBy前进行reparation
郭小白0 2019-05-31
  • 打赏
  • 举报
回复
你不妨在进行写入之前进行coalesce(num)这样试试,我试了一下,至少小数据量还是可以的,像这样:
specialDaysInMall.toDF("name", "age", "address").coalesce(3)
.registerTempTable("inMall")
hqx.sql("insert overwrite table t1 select name,age,address from inMall")
这样之后,在使用sql进行insert或者overwrite形式进行写入hive表,这样结果应该就只会生成3个parquet文件,不妨一试
书断华 2018-01-19
  • 打赏
  • 举报
回复
200是Spark sql的默认并行度。别人都嫌弃他太慢了要调高并行度,你居然要降低它的并行度,你如果真的嫌弃他太多了,你可以适当降低它的并行度,调节参数 spark.sql.shuffle.partitions
guostong 2017-12-18
  • 打赏
  • 举报
回复
repartition(1)
内容概要:本文围绕“基于虚拟同步发电机的多逆变器并联改进控制策略”展开,系统研究了微电网环境下多逆变器系统的协同运行与控制问题。重点内容包括虚拟同步发电机(VSG)技术在双机并联系统中的应用,实现有功与无功功率的精确分配(均分或按比例)、微电网黑启动控制、虚拟阻抗的引入以有效抑制环流,以及预同步并网控制策略的设计与实现。文中依托MATLAB/Simulink平台构建了详细的仿真模型,对所提出的各项控制策略进行了全面的仿真验证,确保系统在负载突变、并网/离网切换等动态工况下具备优异的稳定性、动态响应特性和功率均分精度。此外,文档还列举了大量相关的电力系统科研方向与可复现课题,如储能系统优化、无功补偿、配电网重构、智能优化算法应用等,充分体现了MATLAB/Simulink在现代电力电子与新能源并网技术科研中的核心支撑作用。; 适合人群:具备电力电子技术、自动控制原理及微电网基础知识,从事电气工程、新能源发电、智能电网等领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①深入掌握虚拟同步发电机(VSG)在多逆变器并联系统中的功率分配、惯量支撑与一次调频调压机制;②学习并实践微电网黑启动、环流抑制、预同步控制等关键环节的仿真建模与控制算法设计;③借助文中丰富的科研案例与仿真资源,开展高水平学术论文的复现工作或进行创新性课题的研究与开发; 阅读建议:建议结合文中提及的Simulink仿真模型与网盘提供的完整资源,坚持理论学习与动手实践相结合,重点关注控制策略的设计思路、模块化搭建方法及仿真参数的整定过程,同时关注公众号“荔枝科研社”以获取持续的技术支持与资料更新。

1,275

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧