Flume-kafka-storm日志分析--日志发送log4j2中缓存队列不足导致日志丢失问题如何解决？

ZK_小姜 2016-01-21 10:56:55

背景：日志分析，采用Flume-kafka-storm-hbase-ui这样的一个实时流处理的框架，flume作为日志收集器，kafka作为日志中间缓存，storm实时处理，hbase日志存储，然后前端界面从hbase中拿数据进行展示。日志产生是通过log4j2来产生日志，并通过网络发送给flume。
问题：日志产生端在有的时间段会瞬时产生大量的日志，这个时候，log4j2的缓存队列就不够用了，出于某些原因，在log4j2中不允许使用太大的缓存队列数，因为那样会占用过大的内存，影响交易服务。于是在这种情况下在那个时间段当log4j2的缓存队列溢出了后，就会造成日志数据丢失。
不知道各位大神是否有遇到过这样的问题，还请不吝赐教。

...全文

844 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

矮小的 2021-07-09

打赏
举报

回复

我自己测试的100线程1w条实际log只有72万。。。降低需求100线程100条 =1380（每次不一）

所以不要使用异步。。。不要使用异步。。。不要使用异步。。。

dzl84394 2016-09-07

打赏
举报

回复

或者flume去读取log4j写出来的文件日志呢?

石药 2016-04-18

打赏
举报

回复

楼主最后怎么解决的呢。我也遇到有数据丢失的情况

ZK_小姜 2016-01-25

打赏
举报

回复

........

Flume-ng+Kafka+storm的学习笔记 Flume-ng Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html 官方的英文文档介绍

今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一个简单的入门级架构，实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构, 消费数据时如何处理重复数据或者丢失数据等问题，根据不同的业务场景，对数据的可靠性要求以及系统

出处：http://blog.csdn.net/zxcvg/article/details/18600335/ 谢谢吐个槽：在word文档中写好的包括图片在csdn粘贴过来后图片必须重新上传不爽啊！！ Flume-ng+Kafka+storm的学习笔记 Flume-ng Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 ...

Flume+Kafka实现日志文件流处理

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章