spark RDD中的元组如何按照指定格式保存到HDFS上？

sabiqusi 2017-12-21 01:57:51

请教一个问题：spark数据清洗的结果为RDD[(String, String)]类型的rdd，在这个RDD中，每一个元素都是

一个元组。元组的key值是文件名，value值是文件内容，我现在想把整个RDD保存在HDFS上，让RDD中的每一

个元素保存为一个文件，其中key值作为文件名，而value值作为文件内容。

应该如何实现呢？

RDD好像不支持遍历，只能通过collect()方法保存为一个数组，再进行遍历，但是这样可能会把内存撑爆，

目前的做法是先把RDD通过saveAsTextFile方法保存在HDFS上，然后再使用FSDataInputStream输入流对保存

后的part文件进行遍历读取，使用输出流写到HDFS上，这样很耗时。

请问有没有好一点的方法，可以直接把RDD的内容写到HDFS上呢？

...全文

717 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

张某码 2018-01-19

打赏
举报

回复

foreach算子，用文件流处理不要用saveAsTextFile了

KingOfJelly 2018-01-16

打赏
举报

回复

每个元素都保存成一个文件？还是说想要每个相同的key的所有元素生成到以key为文件名，values为内容？

讲解Spark RDD 容错原理及其四大核心要点解析对Spark RDD 中Runtime 流程进行解析；通过一个WordCount 实例，解析Spark RDD内部机制；基于DataSet的代码，深入分析DataSet一步步转化成为RDD 的过程。

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中

分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。预备工作：启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录设置项目信息（项目名、保存位置、组编号、项目编号）将目录改成目录在文件里添加依赖与Maven构建插件（三）创建日志属性文件在资源文件夹里创建日志属性文件 - （四）创建分组排行榜单例对象在包里创建单例对象...

一. RDD设计背景程序运行阶段会涉及很多迭代算法, 这些场景的共同之处是, 不同计算阶段会重用中间结果, 即一个阶段的输出作为下一个阶段的输入. MapReduce在处理这种情况的时候更多的是把中间结果写入到HDFS中, 这种操作会带来大量的数据复制, 磁盘IO和序列化开销. RDD就是为了满足这种需求出现的, 它提供一个抽象的数据架构, 不必担心底层数据的分布式特性, 只需...

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。一个数据集合，用于存放数据的。Distributed：RDD中的数据是分布式存储的，可用于分布式计算。Resilient：RDD中的数据可以存储在内存中或者磁盘中。RDD（Resilient Distributed Dataset）弹性分布式数据集，是Spark中最基本的数据抽象，

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章