阿里分布式数据库未来技术之路

近日,国家工业信息安全发展研究中心发布了《2022年分布式数据库发展趋势研究报告》。报告从数据库行业发展、分布式数据库的产品价值、调整、技术路线、发展趋势、发展方向等方面阐述了分布式数据库的诸多问题。本文从个人角度谈阿里分布式数据库技术。

随着数字化转型的深入,企业更加重视数据。随着云计算、5GIOT、人工智能、区块链等新兴技术的发展,更多新兴的数据场景已经出现。直观来看,这带来的是数据规模的几何级增长,数据结构的复杂性和日剧增。

根据第三方机构的预测数据,未来几年全球数据存储将呈爆发式增长。除了数据规模,对数据载体数据库在数据采集、存储、传输、展现、分析、优化等方面提出了更高的要求。希望以此更好地实现企业对数据资产管理、增值和科学决策、数据高可靠性和可用性、数据在线分析的诉求,进一步发挥数据的价值。上述需求可以说对数据库提出了更高的要求,但传统的数据库架构在超大规模、高并发、实时处理、数据安全等方面显然无法满足需求。此外,高昂的建设成本很难适应数字时代的趋势。

与传统数据库相比,新型分布式数据库的优势凸显。

第一,突破大规模存储能力

在传统的单机或集中式架构下,承载的数据规模受限于本地磁盘或可对接的外部存储空间。后者虽然可以大规模实现(PB),但建设周期长,扩展不灵活,投资成本高,仍会面临IO的性能瓶颈。而阿里分布式数据库,凭借其天然的数据分片能力,是解决超大规模数据承载问题的有效工具。

第二,突破高性能计算的瓶颈

CPU和内存资源作为计算的主要资源,对计算尤为重要。在传统的单机或集中式架构下,上述资源只能通过扩大规模的方式进行扩展,其扩展能力有限,无法整合更多的资源参与计算。和阿里分布式数据库,通过网络可以聚集更多的计算资源参与其中,形成更大规模的计算支撑。在高并发、高性能计算领域更具优势。

第三,补齐数据分析能力短板

数据分析是数据使用的重要方向之一。过去通常由数据仓库等技术来承载。这种在线数据库和离线数据仓库的架构可以在一定程度上解决数据分析的问题,但在实时性、一致性和成本方面存在不足。理想的方式是在单一系统中完成,而传统架构受资源限制,无法完全提供。而阿里分布式数据库,通过其对计算能力的整合,可以满足混合负载的业务压力,大幅提高分析的时效性,减少数据冗余,大幅提高灵活性。

第四,提高可用性和安全性

在传统架构下,数据库的可用性更多依赖于单点(或存储),设计上往往通过冗余硬件保护来改善。但是,由于体系结构的限制,很难实现非常高的可用性。对于数据安全性,通常通过主和辅助复制和备份来实现。但是很难保证数据的在线安全,需要在一个窗口期内完成恢复。分布式架构具有存储和计算分离、多副本和灵活扩展的能力,可以有效提高整体可用性和数据安全性。用户可以根据需要灵活调整架构,提高可用性和安全性。

第五,优化成本模型,实现按需扩容。

传统数据库架构的成本相对较高,这主要是由于其架构的局限性。纵向扩展相对容易,横向扩展相对困难。为了保证业务的快速发展,通常需要在项目设计初期就按照最大容量进行规划,或者为了更高的可靠性而付出较高的成本。与阿里分布式数据库不同,其架构天然支持灵活的可扩展性(包括存储和计算),可以实现低成本的高可用性解决方案(多副本)。以上能力将有效降低企业建设系统的投入,尤其是面对快速多变的业务场景。