数据库的未来和“十四五”数据库发展趋势与挑战

Gauss松鼠会探花 2022-04-19 09:57:32

本次推荐文档来自 CCF 2021年12月发表的《"十四五"数据库发展趋势与挑战》一文，其中针对数据库的精彩论断，值得从业者深入理解和思考。

署名字母序作者：陈群、陈跃国、崔斌、范多锋、高云君、李国良、李战怀、毛睿、潘安群、彭智勇、钱卫宁、童咏昕、屠要峰、王晓阳、杨晓春、姚斌、袁野、周立柱。

主要观点：

计算模式的改变和应用需求变化对数据库系统形态起到了至关重要作用，也推动了数据库架构的迭代更新。

线下数据库到云数据库的转变：数据库部署形态从传统的线下部署转变到云上部署，计算存储分离的云原生数据库得到了广泛关注。
集群数据库到分布式数据库的转变：数据库逐步发展到分布式数据库模型，而分布式查询优化、分布式事务和分布式一致性协议等技术也得到了快速发展。
端边云协同数据库:随着移动互联网和数字孪生的普及，端边云协同的数据处理得到了广泛关注，而异构智能设备上的分布式数据协同与一致性管理需要深入研究与发展。
AI 原生数据库:AI 和数据库结合，通过 AI 技术优化数据库的设计和管理(例如学习型索引、学习型代价估计、智能参数调优等)；通过数据库系统和技术降低 AI 使用门槛，普惠 AI。

数据库产品分类图谱:

具体来讲：

计算模式改变:新型计算模式，例如云计算架构，对数据库发展起到了重要作用。云架构计算存储解耦，实现独立的计算弹性伸缩和存储的自动扩缩容，云原生数据库应运而生;随着物联网的发展和数字孪生的普及，端边云成为趋势，需要突破端边云数据处理技术来支持万物互联时代的数据管理，而目前还缺少端边云(协同)数据库。
应用需求变化:数据库从解决数据交易问题的OLTP数据库，到支持商业决策需求的OLAP数据库，再到智能时代，需要融合数据库和 AI 技术来支持实时的智能决策，因此亟待研究 AI 原生的数据库。大数据时代，更多的数据管理系统更加注重系统扩展性，因此 NewSQL 分布式数据库，例如 Spanner，得到了大型应用的青睐。

云原生数据库 1.0，通过计算存储分离、日志即数据、一写多读等技术实现

其优点:

云原生数据库 2.0 的技术挑战:

分布式数据库要解决的核心问题:

AI 原生数据库核心挑战。未来的 AI 原生数据库需要从 AI 需求的角度来重新设计和实现 DBMS，以友好的方式高效地支持 DB&AI 的混合处理(Hybrid DB & AI Processing)，其核心技术包括:

设计和实现统一的数据模型。设计统一的数据模型来表示异构多模态数据，并实现相应的存储方法，使之能无缝地支持关系代数操作(如选择、投影、交)、线性代数操作(如标量、向量、张量操作)以及其他基于更复杂 AI 模型(如深度神经网络)的操作，是需要解决的核心挑战之一。
设计和实现统一的操作算子。定义和实现一套 AI 原生的数据操作算子，友好高效地支持 DB & AI 的混合运算，是 AI 原生数据库需要解决的另一个核心挑战。
设计和实现统一的优化引擎。在统一的数据模型和操作模型之上，AI 原生数据库需要一个统一的执行引擎，优化 DB & AI 的混合操作。基于代价模型优化执行计划是需要解决的核心挑战之一。AI 模型的管理以及其跟执行优化的耦合也是执行引擎的核心挑战之一。
利用 CPU+GPU 异构硬件实现训练和推理加速。DB 和 AI 通常需要不同的计算能力和硬件，需要充分利用多样化的计算能力。最终目标是充分利用 x86、ARM、GPU、NPU、加速器等多种计算能力。

文章来源：公众号数据和云

...全文