hdfs如何监测文件夹动态？

ashiny_why 2015-07-13 05:00:55

如题，在hdfs上创建了一个文件夹，想实时监测文件夹的变化，主要是新增文件。功能和linux 的inotify相似，当有新文件生成时，能过获取文件的各项信息，并调用现成的jar包对其进行处理。该检监测程序始终在后台执行，如无意外不会终止。
现有的java、c等库似乎都只能监测本地文件夹，不能监测集群上的文件夹。求指点！~

...全文

279 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

ashiny_why 2015-09-20

打赏
举报

回复

可以自己编写代码也不是很难

CollectorProject[本地文件采集到HDFS] 采集--每两分钟监测采集目录是否有新文件，有新文件则采集过来，对采集过的文件进行标记防止重复采集之前在电信研究院时，工作之一就维护一套程序，这套程序从Collect,ETL,Analysis每天200+亿条，8~9T的数据处理起来如丝顺滑，阅读这套程序过程中不管是代码规范还是设计理念都给予了我很大的帮助，所以我把其中的Collect部分抽取了出来单独做成一个采集项目，其实真正的精华在ETL,Analysis部分。设计思路：程序以后台的方式常驻于采集机上，以轮询的方式监控采集目录，将采集目录添加到缓存队列和采集队列中，通过遍历采集队列中的目录文件来进行采集工作核心方法注释： CopyFile：核心代码 getNewFiles：该方法主要是将所有需要采集的文件信息都保存在dateTimeToNewFiles

HDFS可靠性措施一、冗余备份：数据存储在这些HDFS中的节点上，为了防止因为某个节点宕机而导致数据丢失，HDFS对数据进行冗余备份，至于具体冗余多少个副本，在dfs.replication中配置。二、副本存放：仅仅对数据进行冗余备份还不够，假设所有的备份都在一个节点上，那么该节点宕机后，数据一样会丢失，因此HDFS要有一个好的副本存放策略，该策略还在开发中。目前使用的是，以dfs.rep

讲解HDFS的Java、shell操作，HDFS集群搭建

前面文章提到的爬虫程序编写完成后，在虚拟机上使用python3 ****.py运行，程序中的文件输出路径为/export/nocv_data。这里还采取了负载均衡的策略，也就是我们规定一个组（这里三台），组内一台监测文件夹并将数据包装成事件送出，由另外两台虚拟机上传到hdfs中。另外为了防止数据过多对本地文件占用等问题，我们需要设置deletePolicy参数，将文件采集之后即删除。启动顺序是，先第二级后第一级。之后我们启动flume后，运行爬虫程序，这样就可以实现flume试试上传数据到hdfs上。

转自：http://blog.csdn.net/zhihu008/article/details/7995829 FileSystemWatcher.h #ifndef __FILESYSTEMWATCHER_HPP__ #define __FILESYSTEMWATCHER_HPP__ #if(_WIN32_WINNT < 0x0400) #define _WIN32_WINNT

其他数据库

2,209

社区成员

9,519

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章