千亿级大数据如何存储的问题?

bandaoyu 2018-11-22 09:59:01
数据源:

我们系统监控的终端设备

——————————————————

每10秒产生一条记录

每年:24*60*60*365/10 = 3153600 约315万

—————————————————

每个场站100台,每年

100*315 = 3亿

_______________


500个场站,那么就是3000亿记录,每1000条记录的大小约0.25353M,3000亿既:约36.25T

—————————————————

存储最近2年的数据

2*36.25 = 72.5 T

——————————————————

服务器端:


数据库构架?


问:1、我们应该用什么数据库存储,用什么方案/框架?

2、Hadoop说的大数据是指处理的数据量大还是存储的数据量大?适合这里吗
...全文
3287 40 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
40 条回复
切换为时间正序
请发表友善的回复…
发表回复
AT152S 2019-11-05
  • 打赏
  • 举报
回复
mysql分布式咯
waleswood 2019-10-23
  • 打赏
  • 举报
回复
应该用 时序数据库
bandaoyu 2019-08-03
  • 打赏
  • 举报
回复
引用 46 楼 学海无涯回头是岸 的回复:
用mysql分库 分表应该可行
mysql的话,单表轻松过亿,这个不大好吧
  • 打赏
  • 举报
回复
用mysql分库 分表应该可行
bandaoyu 2019-08-01
  • 打赏
  • 举报
回复
主要是物联网 200多台设备,不停的产生数据,千亿级的数据,都存在一个表?如何设计后面的数据库?
AHUA1001 2019-08-01
  • 打赏
  • 举报
回复
目前大部分数据库,都是支持的。 如果需要实时存储,大数据就算了,大数据不适合短时间做大量的数据写入。
bandaoyu 2019-05-29
  • 打赏
  • 举报
回复
引用 41 楼 asyqm 的回复:
引用 40 楼 bandaoyu 的回复:
[quote=引用 37 楼 asyqm 的回复:]

hadoop 应该还是可以用的,只不过不是直接用hadoop的 HDFS存储,用Hbase存储的吧


用肯定能用啊,但是hadoop应该关注在计算上,存储的事应该还是让存储来~~~[/quote]嗯嗯
asyqm 2019-05-26
  • 打赏
  • 举报
回复
引用 40 楼 bandaoyu 的回复:
引用 37 楼 asyqm 的回复:
hadoop 应该还是可以用的,只不过不是直接用hadoop的 HDFS存储,用Hbase存储的吧
用肯定能用啊,但是hadoop应该关注在计算上,存储的事应该还是让存储来~~~
bandaoyu 2019-04-05
  • 打赏
  • 举报
回复
引用 37 楼 asyqm 的回复:
hadoop 应该还是可以用的,只不过不是直接用hadoop的 HDFS存储,用Hbase存储的吧
bandaoyu 2019-04-05
  • 打赏
  • 举报
回复
引用 38 楼 asyqm 的回复:
[quote=引用 36 楼 大脸猫o 的回复:]
[quote=引用 楼主 bandaoyu 的回复:]
那用什么存储 你不要光批判 又不给解决方案。 不然就是愤青了
asyqm 2019-04-04
  • 打赏
  • 举报
回复
引用 36 楼 大脸猫o 的回复:
[quote=引用 楼主 bandaoyu 的回复:]
数据源:

我们系统监控的终端设备

——————————————————

每10秒产生一条记录

每年:24*60*60*365/10 = 3153600 约315万

—————————————————

每个场站100台,每年

100*315 = 3亿

_______________


500个场站,那么就是3000亿记录,每1000条记录的大小约0.25353M,3000亿既:约36.25T

—————————————————

存储最近2年的数据

2*36.25 = 72.5 T

——————————————————

服务器端:


数据库构架?


问:1、我们应该用什么数据库存储,用什么方案/框架?

2、Hadoop说的大数据是指处理的数据量大还是存储的数据量大?适合这里吗


看具体业务需求吧,如果数据的用处是实时查询,那么还是用传统的库吧,分库分表呗,保留一年数据,以前的备份到备份磁盘上,
偏向于分析汇总的数据,就上hadoop吧,这个存储的数据量满足你的需求,计算能力也更适合你这个数据级别的计算,传统库千万级别的join就到瓶颈了。[/quote]
用Hadoop当存储用是极大的资源浪费。。。
asyqm 2019-04-04
  • 打赏
  • 举报
回复
引用 35 楼 bandaoyu 的回复:
引用 34 楼 asyqm 的回复:
如果都是文件,建议上对象存储。同时搭配小文件打包等功能,能够实现很好的存储。
hadoop吗?

Hadoop可不是存储结构。Hadoop主要是做计算的,存储是兼职。海量存储基本对象是专业存储中唯一适合的解决方案了。
大脸猫o 2019-04-03
  • 打赏
  • 举报
回复
引用 楼主 bandaoyu 的回复:
数据源:

我们系统监控的终端设备

——————————————————

每10秒产生一条记录

每年:24*60*60*365/10 = 3153600 约315万

—————————————————

每个场站100台,每年

100*315 = 3亿

_______________


500个场站,那么就是3000亿记录,每1000条记录的大小约0.25353M,3000亿既:约36.25T

—————————————————

存储最近2年的数据

2*36.25 = 72.5 T

——————————————————

服务器端:


数据库构架?


问:1、我们应该用什么数据库存储,用什么方案/框架?

2、Hadoop说的大数据是指处理的数据量大还是存储的数据量大?适合这里吗


看具体业务需求吧,如果数据的用处是实时查询,那么还是用传统的库吧,分库分表呗,保留一年数据,以前的备份到备份磁盘上,
偏向于分析汇总的数据,就上hadoop吧,这个存储的数据量满足你的需求,计算能力也更适合你这个数据级别的计算,传统库千万级别的join就到瓶颈了。
bandaoyu 2019-04-01
  • 打赏
  • 举报
回复
引用 34 楼 asyqm 的回复:
如果都是文件,建议上对象存储。同时搭配小文件打包等功能,能够实现很好的存储。
hadoop吗?
asyqm 2019-04-01
  • 打赏
  • 举报
回复
如果都是文件,建议上对象存储。同时搭配小文件打包等功能,能够实现很好的存储。
wjmwaq 2018-12-05
  • 打赏
  • 举报
回复
1、计算你的数据量
2、先要规划你的数据使用。
3、指定数据存储、运算及备份情况。

存储就分为线上或线下或使用nosql了。

看你的需求基本上就是 要分析相关数据。
你可以将数据入数据仓库(使用etl工具),然后指定计划任务,获取分析结果提供给web展示。。。针对过期数据进行线下备份后删除。


bandaoyu 2018-11-28
  • 打赏
  • 举报
回复
引用 31 楼 学海无涯回头是岸_ 的回复:
对查询 实时 要求,很高的话 上hbase 不是特高 可以hive。 放Oracle 上,感觉没必要
嗯,好,我回头查一下这。我们的存储,最近一年的会经常查询,1年之前的就不经常查询
  • 打赏
  • 举报
回复
对查询 实时 要求,很高的话 上hbase 不是特高 可以hive。 放Oracle 上,感觉没必要
白冰野兽 2018-11-27
  • 打赏
  • 举报
回复
哈哈厉害了哈哈
bandaoyu 2018-11-26
  • 打赏
  • 举报
回复
引用 26 楼 小灰狼 的回复:
引用 21 楼 bandaoyu 的回复:
[quote=引用 19 楼 qq_41315735 的回复:]
选择合适数据库就可以了
什么数据库能存得下千亿级别的数据?恐怕是需要分布式数据库或者数据库集群的吧 ,那就需要一个方案呀,单个数据库(单机)估计不行


Oracle 一个表存千亿数据肯定没问题
但为了查询速度,要作很多其它优化处理
[/quote]有没有开源的软件?暂时不考虑收费的
加载更多回复(20)

17,140

社区成员

发帖
与我相关
我的任务
社区描述
Oracle开发相关技术讨论
社区管理员
  • 开发
  • Lucifer三思而后行
  • 卖水果的net
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧