PySpark Streaming的textFileStream 如何支持通配符或正则表达式以监控目录中特定文件的内容?

GuoJuXia 2017-07-17 04:36:04
最近在研究PySpark Streaming的使用,做个实时监控目录的小程序,请问PySpark Streaming的textFileStream如何只读取目录中特定类型文件的内容,比如目录test中可能会随时增加txt文件和docx文件,如何实现只有当增加txt文件时PySpark Streaming才会读取的功能?

所遇到的问题也跟这个问题差不多https://issues.apache.org/jira/browse/SPARK-8605

已经通过google发现PySpark 中的textFile支持通配符,而textFileStream不支持,但貌似又有人提出了解决方法,参考链接如下:
https://issues.apache.org/jira/browse/SPARK-14976
但是没有搞明白如何解决的,请问大牛们如何处理?感激不尽!
...全文
524 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧