社区
华为云计算
帖子详情
如何设计生产环境中flume采集非结构化数据的方案
qq_38827686
2018-12-18 08:52:15
现在想到的方案是,将非结构化数据源定时复制到flume监控的文件夹中,进行采集,还有没有其它生产环境下的设计方案。
...全文
335
1
打赏
收藏
如何设计生产环境中flume采集非结构化数据的方案
现在想到的方案是,将非结构化数据源定时复制到flume监控的文件夹中,进行采集,还有没有其它生产环境下的设计方案。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
deepthinkers
2018-12-18
打赏
举报
回复
我之前是从各种应用系统的日志的服务器所在位置去他们的日志目录去拿,思路和你这个差不多,搞个监控目录,定时复制,flume安装到几个系统的节点上,把数据采到以后,送到kafka,然后后台spark根据kafka的topic进行消费。
天气爬虫
采集
,kafka实时分发,
flume
_收集数据导入到_Hbase,_再由_Hive_
天气爬虫
采集
,kafka实时分发,
flume
_收集数据导入到_Hbase,_再由_Hive_与_Hb_weather-mrs
数据仓库建设
方案
.pdf
。。。
第8章-大数据
采集
.pptx
第8章-大数据
采集
.pptx
实时日志
采集
处理系统
基于大数据,模拟web数据的产生,
flume
采集
,将
采集
到的原始数据发送到kafka
中
,再通过spark Streaming传入hbase数据库
中
大数据之
flume
数据
采集
Flume
是一个分布式、可靠、和高可用的海量日志
采集
、聚合和传输的系统。 它可以
采集
文件,socket数据包等各种形式源数据,又可以将
采集
到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统
中
。 一、
flume
结构
Flume
分布式系统
中
最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件: Source::
采集
源,用于跟数据源对接,以获取数据 Sink::下沉地,
采集
数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据 Channel
华为云计算
926
社区成员
645
社区内容
发帖
与我相关
我的任务
华为云计算
华为云计算论坛,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算!
复制链接
扫一扫
分享
社区描述
华为云计算论坛,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算!
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章