社区
其他数据库
帖子详情
hdfs如何监测文件夹动态?
ashiny_why
2015-07-13 05:00:55
如题,在hdfs上创建了一个文件夹,想实时监测文件夹的变化,主要是新增文件。功能和linux 的inotify相似,当有新文件生成时,能过获取文件的各项信息,并调用现成的jar包对其进行处理。该检监测程序始终在后台执行,如无意外不会终止。
现有的java、c等库似乎都只能监测本地文件夹,不能监测集群上的文件夹。求指点!~
...全文
279
1
打赏
收藏
hdfs如何监测文件夹动态?
如题,在hdfs上创建了一个文件夹,想实时监测文件夹的变化,主要是新增文件。功能和linux 的inotify相似,当有新文件生成时,能过获取文件的各项信息,并调用现成的jar包对其进行处理。该检监测程序始终在后台执行,如无意外不会终止。 现有的java、c等库似乎都只能监测本地文件夹,不能监测集群上的文件夹。求指点!~
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ashiny_why
2015-09-20
打赏
举报
回复
可以自己编写代码也不是很难
CollectorProject:采集--每两分钟
监测
采集目录是否有新文件,有新文件则采集到
HDFS
,并对采集过的文件进行标记防止重复采集(一个学习多线程并发的很好例子)
CollectorProject[本地文件采集到
HDFS
] 采集--每两分钟
监测
采集目录是否有新文件,有新文件则采集过来,对采集过的文件进行标记防止重复采集 之前在电信研究院时,工作之一就维护一套程序,这套程序从Collect,ETL,Analysis每天200+亿条,8~9T的数据处理起来如丝顺滑, 阅读这套程序过程中不管是代码规范还是设计理念都给予了我很大的帮助,所以我把其中的Collect部分抽取了出来单独做成一个采集项目, 其实真正的精华在ETL,Analysis部分。 设计思路: 程序以后台的方式常驻于采集机上,以轮询的方式监控采集目录,将采集目录添加到缓存队列和采集队列中,通过遍历采集队列中的目录文件来进行采集工作 核心方法注释: CopyFile:核心代码 getNewFiles:该方法主要是将所有需要采集的文件信息都保存在dateTimeToNewFiles
HDFS
可靠性措施
HDFS
可靠性措施 一、冗余备份:数据存储在这些
HDFS
中的节点上,为了防止因为某个节点宕机而导致数据丢失,
HDFS
对数据进行冗余备份,至于具体冗余多少个副本,在dfs.replication中配置。 二、副本存放:仅仅对数据进行冗余备份还不够,假设所有的备份都在一个节点上,那么该节点宕机后,数据一样会丢失,因此
HDFS
要有一个好的副本存放策略,该策略还在开发中。目前使用的是,以dfs.rep
HDFS
精讲
讲解
HDFS
的Java、shell操作,
HDFS
集群搭建
Flume
监测
爬虫
文件夹
内容并上传到
HDFS
前面文章提到的爬虫程序编写完成后,在虚拟机上使用python3 ****.py运行,程序中的文件输出路径为/export/nocv_data。这里还采取了负载均衡的策略,也就是我们规定一个组(这里三台),组内一台
监测
文件夹
并将数据包装成事件送出,由另外两台虚拟机上传到
hdfs
中。另外为了防止数据过多对本地文件占用等问题,我们需要设置deletePolicy参数,将文件采集之后即删除。启动顺序是,先第二级后第一级。之后我们启动flume后,运行爬虫程序,这样就可以实现flume试试上传数据到
hdfs
上。
C++
监测
文件夹
变化
转自:http://blog.csdn.net/zhihu008/article/details/7995829 FileSystemWatcher.h #ifndef __FILESYSTEMWATCHER_HPP__ #define __FILESYSTEMWATCHER_HPP__ #if(_WIN32_WINNT < 0x0400) #define _WIN32_WINNT
其他数据库
2,209
社区成员
9,519
社区内容
发帖
与我相关
我的任务
其他数据库
其他数据库开发 其他数据库
复制链接
扫一扫
分享
社区描述
其他数据库开发 其他数据库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章