日志数据每天达到100万条差不多一个GB，请问有什么好的存储方式？

tong386 2021-04-15 04:27:21

假如系统每天产生100万条日志，存放在数据库中的话，感觉数据增长太快，那么应该存储到哪里呢？

...全文

2424 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

咕泡-星云 2021-07-12

打赏
举报

可以用flume采集，通过kafka缓存，再通过flum存入hdfs，用hive进行处理，如果还想进行更复杂的处理，还可通过hive存入hudi或iceberg这样的数据湖框架

无人交流的问题 2021-05-24

打赏
举报

每天都有这么多日志数据，肯定首先考虑hdfs，如果取对实时性要求很高，也可以搞成实时消费，看你用的场景，存储的场景大多用hdfs

DATA数据猿 2021-05-22

打赏
举报

这样的话，使用离线性价比高吧，通过采集和切分日志，可以使用openresty实现，然后利用flume将切分后的日志文件上传到hdfs中，按日期存储
这样的话，就可以在hive中建立外部表调用日志中的数据

tong386 2021-04-29

打赏
举报

引用 8 楼 LinkSe7en 的回复:

微服务下，日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。打kafka是为了实时流处理，进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库，加快查询而HBase虽然存储强悍，但是查询跟ES比实在是太不方便了 Hive更不用说，是用于跑批分析的，不适合实时明细查询所以各种组件要用在合适的场景才能发挥最强性能

感谢大佬指导，学习了！

AI_Maynor 2021-04-26

打赏
举报

引用 8 楼 LinkSe7en 的回复:

微服务下，日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。打kafka是为了实时流处理，进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库，加快查询而HBase虽然存储强悍，但是查询跟ES比实在是太不方便了 Hive更不用说，是用于跑批分析的，不适合实时明细查询所以各种组件要用在合适的场景才能发挥最强性能

学到了，感谢大佬斧正！

LinkSe7en 2021-04-26

打赏
举报

微服务下，日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。打kafka是为了实时流处理，进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库，加快查询而HBase虽然存储强悍，但是查询跟ES比实在是太不方便了 Hive更不用说，是用于跑批分析的，不适合实时明细查询所以各种组件要用在合适的场景才能发挥最强性能

AI_Maynor 2021-04-26