spark在读取文件夹时对里面的文件进行过滤
hadoop 里面有这个参数 mapreduce.input.pathFilter.class, 来实现文件的过滤功能
现在使用spark,我在官方文档提供的配置里面没有找到可以实现文件过滤功能的配置
业务需求是 : spark需要读取hdfs上面的某些数据目录,但是这个数据目录下面并不是所有的文件我都希望计算
比如说.tmp结尾的临时文件,正在复制的文件,以某些后缀结尾的文件
或者是,这个目录下面存储的是一天的数据,但是我只想计算其中某个小时的数据(数据属于哪个小时可以根据时间区分出来)
请问下,spark有没有办法实现这样的功能呢?
如果有的话,是哪些配置或者是哪些操作可以做到呢? 希望能给一些提示
谢谢大家!