可以用flume采集,通过kafka缓存,再通过flum存入hdfs,用hive进行处理,如果还想进行更复杂的处理,还可通过hive存入hudi或iceberg这样的数据湖框架
微服务下,日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。 打kafka是为了实时流处理,进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库,加快查询 而HBase虽然存储强悍,但是查询跟ES比实在是太不方便了 Hive更不用说,是用于跑批分析的,不适合实时明细查询 所以各种组件要用在合适的场景才能发挥最强性能
[quote=引用 2 楼 ChinaManor 的回复:]实时数据存储在Hbase,离线数据存储Hive, 如果数据不经常使用建议使用Hive
实时数据存储在Hbase,离线数据存储Hive, 如果数据不经常使用建议使用Hive
Elastic Search
20,811
社区成员
4,691
社区内容
加载中
试试用AI创作助手写篇文章吧