超级大容量数据库设计问题，年存储4万亿条记录。

kyle315 2011-08-26 12:01:02

一秒钟有十几万条记录产生，一年有将近4万亿条记录产生，数据量非常之大，目前也有好多用户都提出了类似的要求，请教各位大神，有无可行的方案，不限数据库（目前使用MySQL，无法满足要求），只要能满足要求，关系型数据库、NoSQL数据库都行，请注明实现的方式，多谢。

说明：
1.不考虑超级服务器，太贵，但8核之类的服务器还可以接受；
2.除了检索，还要进行数据统计分析，可能会针对1年的数据进行分析，需要保证统计性能；

...全文

404 18 打赏收藏转发到动态举报

写回复

18 条回复

切换为时间正序

请发表友善的回复…

发表回复

2399 2011-08-28

打赏
举报

回复

学习ing

liguiju 2011-08-26

打赏
举报

回复

楼主的大数据处理环境使用HBase+Hadoop+Hive，做分布式存储，后期做分布式计算，数据统计分析，挖掘之类的是一个可取的方案，可以说是解决这个大数据量利器。

kyle315 2011-08-26

打赏
举报

回复

另外，大家有无在生产环境使用过MySQL+NoSQL，哪种NoSQL技术更成熟些？我想尽量在MySQL上去改进，ORACLE授权太贵了。

kyle315 2011-08-26

打赏
举报

回复

[Quote=引用 13 楼 acmain_chm 的回复:]

无论是ORACLE或者DB2，这样的大的IO，单台普通计算机服务器肯定不行。同样如果是多机，则不管是MYSQL还是ORACLE都可以。但关键是这个集群很难，需要有经验的专家。
[/Quote]
MySQL集群的可靠性如何？

士居坡西 2011-08-26

打赏
举报

回复

你的用户是百度谷歌吧?

ACMAIN_CHM 2011-08-26

打赏
举报

回复

[Quote]一秒钟有十几万条记录产生[/Quote]这个估计没什么单个服务器的数据库能支持住。1秒150K记录，每毫秒150个记录，你的网络如何设计？你的磁盘IO如何设计？你的存储访问如何设计？目前的单机系统估计难。

考虑一下多台服务器来做负载均衡。

WWWWA 2011-08-26

打赏
举报

回复

这个数据量，恐怕只有ORACLE胜任了

clop 2011-08-26

打赏
举报

回复

一秒十几万记录是什么数据啊，短信也没这么多吧
必须cluster+负载均衡

ACMAIN_CHM 2011-08-26

打赏
举报

回复

无论是ORACLE或者DB2，这样的大的IO，单台普通计算机服务器肯定不行。同样如果是多机，则不管是MYSQL还是ORACLE都可以。但关键是这个集群很难，需要有经验的专家。

coder000 2011-08-26

打赏
举报

回复

DB2啊DB2

加油馒头 2011-08-26

打赏
举报

回复

按天分表分库

iihero 2011-08-26

打赏
举报

回复

NoSQL

wwwwb 2011-08-26

打赏
举报

回复

[Quote=引用 8 楼 mysqldbd 的回复:]
引用 1 楼 wwwwa 的回复:
这个数据量，恐怕只有ORACLE胜任了

DB2的数据库也可以满足楼主的要求的。
[/Quote]
哦，对DB2不是很熟悉，IBM的大型数据库？

mysqldbd 2011-08-26

打赏
举报

回复

[Quote=引用 1 楼 wwwwa 的回复:]
这个数据量，恐怕只有ORACLE胜任了
[/Quote]

DB2的数据库也可以满足楼主的要求的。

daodaoyu222 2011-08-26

打赏
举报

回复

楼主瞎折腾。。

什么项目，，有这么大请求啊。

微醺-BW 2011-08-26

打赏
举报

回复

一秒钟有十几万条记录产生，太厉害了！

zhaojianmi1 2011-08-26

打赏
举报

回复

hadoop

rucypli 2011-08-26

打赏
举报

回复

前使用MySQL，无法满足要求

为什么

本文介绍了一款骑行类App如何利用表格存储(Tablestore)高效存储和查询GPS数据的方法。涵盖GPS轨迹存储、查询、共享及异常报警等多个应用场景。

本文系统讲解大数据分布式存储的核心原理与实践应用，涵盖HDFS、Ceph等主流技术架构，剖析CAP理论、副本机制与数据一致性权衡，并结合字节跳动、阿里云、特斯拉等真实案例展示其在大数据、AI和云计算中的关键作用，帮助读者构建完整的分布式存储知识体系。

希捷在敦煌举办的云存储高峰论坛上展示了其在大数据、云计算等领域的最新进展。希捷通过收购和技术研发加强了闪存存储能力，并推出了新的PCIe闪存加速卡。此外，希捷还借助多种磁盘技术突破存储容量限制，并成立了云系统与解决方案部门，提供了一系列面向云计算市场的解决方案。

本文深入剖析百度开源分布式数据库Tera的增强版LevelDB存储引擎，重点涵盖多级缓存优化（Block/Table/持久化缓存）、BigTable三维模型到LevelDB key-value的编码设计、MVCC事务与一致性增强、异步写入批处理、智能分层Compaction及热点分片自动分裂等核心技术。同时介绍其在搜索引擎链接存储、实时分析和时序数据等场景的工程实践与性能表现。

57,064

社区成员

56,762

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章