PySpark Streaming的textFileStream 如何支持通配符或正则表达式以监控目录中特定文件的内容?
最近在研究PySpark Streaming的使用,做个实时监控目录的小程序,请问PySpark Streaming的textFileStream如何只读取目录中特定类型文件的内容,比如目录test中可能会随时增加txt文件和docx文件,如何实现只有当增加txt文件时PySpark Streaming才会读取的功能?
所遇到的问题也跟这个问题差不多https://issues.apache.org/jira/browse/SPARK-8605
已经通过google发现PySpark 中的textFile支持通配符,而textFileStream不支持,但貌似又有人提出了解决方法,参考链接如下:
https://issues.apache.org/jira/browse/SPARK-14976
但是没有搞明白如何解决的,请问大牛们如何处理?感激不尽!