阿里OceanBase:中国自主研发数据库的发展历程

发表时间: 2021-06-10 21:59

作者:苏中 阿里研究院资深技术研究专家


“2021年5月20日,从国际数据库领域权威组织TPC(Transaction Processing Performance Council)传来好消息,阿里巴巴公司自主研发的数据库产品OceanBase以1526万QphH的性能总分打破TPC-H 30000GB的历史记录,拿到了OLAP(在线分析处理)世界第一。2019 年和2020年,OceanBase曾两次登顶世界OLTP(在线交易处理)TPC-C 基准性能测试。这意味着OceanBase成为数据库领域唯一在事务处理和数据分析两个领域的国际技术评测中都拿到第一的中国自研数据库。”



数据库也可能被卡脖子


2018年4月16日,时任美国商务部部长的罗斯下令,禁止美国公司向中国电信设备制造商中兴通讯出口电讯零部件产品。一时间,这家正准备为5G市场摩拳擦掌的电信设备制造巨头一下被卡住了脖子,从产品研发到设备生产几乎全线休克, 企业几乎停摆。


三天后,《科技日报》在头版头条推出题为 “亟待攻克的核心技术”专栏,系统刨析我国关键核心技术的短板,引起了举国上下,尤其是科技界巨大的反响。“卡脖子专栏”先后列举了35个“卡脖子”技术,商用数据库管理系统(DBMS),即数据库技术,位列其中。


数据库的简要发展史


1970年,IBM圣何塞研究实验室的研究员埃德加·科德发表题为《大型共享数据库的关系数据模型》的论文,第一次提出了关系数据库模型,解决了当时应用开发中极其复杂的数据管理、使用和共享的问题,为计算机科学打开了一个崭新的技术领域。科德也因此获得1981年的图灵奖。科德可能没有想到的是,数据库软件如今已经成长成为每年500亿美元规模的市场,从查询天气预报、预订共享出行、网购商品到各种在线服务,数据库软件几乎支撑着我们身边的每一项信息服务。


目前,商用领域的数据库软件几乎被Oracle, Microsoft, IBM,teradata等美国公司垄断。


阿里自主数据库之路,始于开源框架的探索


时间回到2003年,伴随着阿里新成立淘宝业务快速成长,阿里在数据库研发的投入开始加速。为了响应高速增长的业务需求,淘宝甚至启用了全亚洲最大的Oracle RAC集群。不过,性能瓶颈和成本压力还是让数据库系统成为了淘宝业务发展的难点。


和同时代的其他互联网公司类似,阿里自主开发数据库系统的道路开始于搭建基于开放源码数据库系统的自研数据库平台。在开源数据库项目MySQL之下,阿里技术团队构建了一个分支叫AliSQL,投入研发力量不断优化系统性能和实现新的功能。2016年云栖大会上,阿里云宣布AliSQL开源,相比社区版MySQL, AliSQL有70%性能提升,在支持秒杀场景的情况下,性能甚至有百倍的提升。


云原生给数据库技术自主发展带来了新的历史机遇



随着互联网尤其是移动互联网技术的发展,IT技术进入了大数据的时代。数据库技术也从集中式平台发展到分布式技术。随着云时代的快速到来,依托云原生技术的分布式数据库技术带来了数据库技术发展带来新的技术革命。云原生将系统资源解耦池化并支持资源分布式水平扩展能力,同时云原生数据库通过将存储与计算分离,实现了传统数据库达不到的计算弹性以及系统韧性。特别是云原生技术实现了数据库的计算分析一体化,解决了传统数据库做OLTP(在线交易处理)和OLAP(在线分析处理)需要用使用两套不同的技术方案、并在两套系统中耗费大量的资源做数据迁移的缺点。


云原生数据库OceanBase


2010年,在开源分布式运算框架Spark项目开源公布的同一年,阿里成立了OceanBase项目组,目标就是成为云原生分布式数据库的领跑者。


OceanBase的商业化道路一步一个脚印。2014 年,OceanBase 支撑了当年双 11 的峰值,实现了核心业务交易场景零的突破。2017 年,OceanBase 第一次走出阿里巴巴,南京银行成为第一家外部客户。如今,OceanBase已经在多家机构落地应用,帮助企业实现数字化转型。正如本文开头来自TPC的好消息那样,OceanBase在业内不断获得国内外同行肯定。


技术评测中都拿到第一的中国自研数据库。


从科德的论文发表至今,数据库技术已走过50多个年头。正如无线通讯技术经历过5个技术阶段的发展,如今在向结合卫星通讯的6G技术演进中一样,数据库技术在云计算时代也在飞速演进,中国必将迎来自研数据库百花齐放、群星灿烂的时代。


责编:斌卡(转载及媒体合作请留言区留言)