日志数据每天达到100万条差不多一个GB,请问有什么好的存储方式?

tong386 2021-04-15 04:27:21
假如系统每天产生100万条日志,存放在数据库中的话,感觉数据增长太快,那么应该存储到哪里呢?
...全文
2424 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
咕泡-星云 2021-07-12
  • 打赏
  • 举报
回复

可以用flume采集,通过kafka缓存,再通过flum存入hdfs,用hive进行处理,如果还想进行更复杂的处理,还可通过hive存入hudi或iceberg这样的数据湖框架

  • 打赏
  • 举报
回复
每天都有这么多日志数据,肯定首先考虑hdfs,如果取对实时性要求很高,也可以搞成实时消费,看你用的场景,存储的场景大多用hdfs
DATA数据猿 2021-05-22
  • 打赏
  • 举报
回复
这样的话,使用离线性价比高吧,通过采集和切分日志,可以使用openresty实现,然后利用flume将切分后的日志文件上传到hdfs中,按日期存储
这样的话,就可以在hive中建立外部表调用日志中的数据
tong386 2021-04-29
  • 打赏
  • 举报
回复
引用 8 楼 LinkSe7en 的回复:
微服务下,日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。 打kafka是为了实时流处理,进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库,加快查询 而HBase虽然存储强悍,但是查询跟ES比实在是太不方便了 Hive更不用说,是用于跑批分析的,不适合实时明细查询 所以各种组件要用在合适的场景才能发挥最强性能
感谢大佬指导,学习了!
AI_Maynor 2021-04-26
  • 打赏
  • 举报
回复
引用 8 楼 LinkSe7en 的回复:
微服务下,日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。 打kafka是为了实时流处理,进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库,加快查询 而HBase虽然存储强悍,但是查询跟ES比实在是太不方便了 Hive更不用说,是用于跑批分析的,不适合实时明细查询 所以各种组件要用在合适的场景才能发挥最强性能
学到了,感谢大佬斧正!
LinkSe7en 2021-04-26
  • 打赏
  • 举报
回复
微服务下,日志聚合就是靠Flume/logstash等等把日志采出来打kafka然后入Elastic Search。这是很标准的日志聚合架构。 打kafka是为了实时流处理,进行实时告警用。ES是事后反查。 ES好处就是可以实时按关键字查询。你也可以通过程序从日志抽取出字段入库,加快查询 而HBase虽然存储强悍,但是查询跟ES比实在是太不方便了 Hive更不用说,是用于跑批分析的,不适合实时明细查询 所以各种组件要用在合适的场景才能发挥最强性能
AI_Maynor 2021-04-26
  • 打赏
  • 举报
回复
引用 4 楼 tong386 的回复:
[quote=引用 2 楼 ChinaManor 的回复:]实时数据存储在Hbase,离线数据存储Hive, 如果数据不经常使用建议使用Hive
这个东西引入复杂吗? 这个问题是个物流公司的面试题,结果我被刷了。[/quote]hbase、hive不都是大数据的存储组件么? 这不是搞大数据必备的东西吗
tong386 2021-04-26
  • 打赏
  • 举报
回复
引用 2 楼 ChinaManor 的回复:
实时数据存储在Hbase,离线数据存储Hive, 如果数据不经常使用建议使用Hive
这个东西引入复杂吗? 这个问题是个物流公司的面试题,结果我被刷了。
tong386 2021-04-26
  • 打赏
  • 举报
回复
引用 1 楼 LinkSe7en 的回复:
Elastic Search
感谢! 一直以为Elastic Search 是个搜索引擎的。
AI_Maynor 2021-04-25
  • 打赏
  • 举报
回复
实时数据存储在Hbase,离线数据存储Hive, 如果数据不经常使用建议使用Hive
LinkSe7en 2021-04-15
  • 打赏
  • 举报
回复
Elastic Search

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧