spark在读取文件夹时对里面的文件进行过滤

new个对象先 2018-10-23 09:22:31
hadoop 里面有这个参数 mapreduce.input.pathFilter.class, 来实现文件的过滤功能
现在使用spark,我在官方文档提供的配置里面没有找到可以实现文件过滤功能的配置

业务需求是 : spark需要读取hdfs上面的某些数据目录,但是这个数据目录下面并不是所有的文件我都希望计算
比如说.tmp结尾的临时文件,正在复制的文件,以某些后缀结尾的文件

或者是,这个目录下面存储的是一天的数据,但是我只想计算其中某个小时的数据(数据属于哪个小时可以根据时间区分出来)

请问下,spark有没有办法实现这样的功能呢?

如果有的话,是哪些配置或者是哪些操作可以做到呢? 希望能给一些提示

谢谢大家!
...全文
276 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,270

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧