spark在读取文件夹时对里面的文件进行过滤

new个对象先 2018-10-23 09:22:31

hadoop 里面有这个参数 mapreduce.input.pathFilter.class, 来实现文件的过滤功能
现在使用spark,我在官方文档提供的配置里面没有找到可以实现文件过滤功能的配置

业务需求是 : spark需要读取hdfs上面的某些数据目录,但是这个数据目录下面并不是所有的文件我都希望计算
比如说.tmp结尾的临时文件,正在复制的文件,以某些后缀结尾的文件

或者是,这个目录下面存储的是一天的数据,但是我只想计算其中某个小时的数据(数据属于哪个小时可以根据时间区分出来)

请问下,spark有没有办法实现这样的功能呢?

如果有的话,是哪些配置或者是哪些操作可以做到呢? 希望能给一些提示

谢谢大家!

...全文

283 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

配置spark环境，运行测试，信息过滤，遇到的问题总结

本资源为 Spark动车线路推荐系统的简单版本(实际可扩展为完整的旅游方案推荐),结果展示采用脚本(作者前端及MVC不精)

spark部署搭建的安装包，spark-1.6.0-bin-hadoop2.4.tgz，需要的朋友可以下载使用

spark高级分析数据源码,这本书的事例代码都在这里面。在你学习的时候可以下下来查看交流

spark-json-schema 该库的目标是在将json数据加载到Apache Spark中时支持输入数据的完整性。为此，该库：读取现有的json模式文件解析json模式并构建一个Spark DataFrame模式将json数据加载到Spark中时，可以使用生成的架构。这验证输入数据符合给定的架构，并能够过滤出损坏的输入数据。快速开始将库包含在以下坐标下： libraryDependencies + = " org.zalando " %% " spark-json-schema " % " 0.6.1 " 通过提供输入文件的路径来解析给定的json模式文件。该文件应相对于resources文件夹： val schema = SchemaConverter .convert( " schemaFile.json " ) 或者，您可以将convertCont

1,273

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章