Spark中的wholeTextFiles接口

廖某 2017-04-17 10:59:35
在通常的情况下,我们使用spark读取文件,会调用
sparkContext.textFile()方法,但是当我们的输入文件为大量的小文件时,这种方式读取效率比较低,会为每一个小文件产生一次task。于是我在官方查询,得知还有一个文件输入接口叫做:wholeTextFiles,官网解释如下:

但是使用这个接口读取文件后,几个文件的内容会被拼接成一个string作为rdd返回,split切割导致字段混乱,有大神用过这个接口吗?
...全文
816 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
东去游鱼 2018-07-12
  • 打赏
  • 举报
回复
同学你好。java 上面可以用 StringUtils.split(content,SeparatorUtil.separator_next) 得到一个数组, SeparatorUtil.separator_next 是 ‘\n’。希望能够帮到你。
whoami_zy 2017-06-13
  • 打赏
  • 举报
回复
这个就相当于遍历某个文件夹下得所有数据 形成key-value得形式 key是路径 value就是文件内容!

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧