Spark 中的文本转换为 Parquet 如何控制Parquet文件的数量

福清仔 2017-09-14 03:45:56

两个parquet文件，都很小，如何实现输出的文件只有一个
sparkl转换部分代码：

val sqlContext=new SQLContext(sc)
val df=sqlContext.createDataFrame(rowRDD,schema)
df.write.mode(SaveMode.Overwrite).save(s"${destDir}/${dateStr}.parquet")

...全文

2474 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

福清仔 2018-02-06

打赏
举报

回复

都不行

书断华 2017-09-20

打赏
举报

回复

你重新划分下partiton 把partition 设置为1

本设计源码提供了一个基于Scala的Spark模型转换为PMML格式。项目包含21个文件，主要使用Scala编程语言，并包含了Java。文件类型包括9个XML配置文件、2个CRC文件、2个Scala源代码文件、1个名称文件、1个Markdown文档、1个Parquet数据文件、1个名称列表文件、1个TXT文本文件、1个PMML文件和1个Java源代码文件。该系统利用JPMML-Spark将Spark模型转换为PMML格式，适合用于学习和实践Scala和Java技术，以及开发基于Scala的Spark模型转换为PMML格式相关的系统。

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件网址：https://blog.csdn.net/chenwewi520feng/article/details/130455817 本文介绍使用MapReduce读写文件，包括：读写SequenceFile、MapFile、ORCFile和ParquetFile文件。本文前提：hadoop环境可正常使用。pom.xml文件内容参考本专栏中的其他文章内容。本文分为四部分，即MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件。下篇文章介绍压缩算法的使用。关于本文的前置内容介绍，参考链接hdfs的文件系统与压缩算法 ———————————————— 版权声明：本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/chenwewi520feng/article/details/13

spark的官方示例源代码，包括wordcount，操作数据库，访问parqurt，json文件等等

spark入门，官网上的介绍，用python实现

精通apache spark，关于spark的最新资料，大数据必备。

1,273

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章