2021年数据库行业分析:资本助力,开源技术崛起

发表时间: 2022-01-12 18:06

本文是“2021 InfoQ 年度技术盘点与展望”系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦操作系统在 2021 年的重要进展、动态,希望能帮助你准确把握 2021 年操作系统的核心发展脉络,在行业内始终保持足够的技术敏锐度。

“InfoQ 年度技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖架构、AI、大数据、大前端、云计算、数据库、中间件、操作系统、开源、编程语言十大领域,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

特此感谢
方勇、黄东旭、李海翔、罗荣龙、杨传辉(花名日照)(按姓名首字母排序)对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。

2021 年以来,企业数字化转型进入深水区,行业数字化场景爆发式增长,数据以指数级数量增长。就在去年,我国也明确了数据在市场化配置过程中成为了继土地、劳动力、技术、资本之后的第五大生产要素,数据在社会发展进程中的重要性不言而喻。

承担数据存储与计算的数据库与操作系统、中间件并列为三大基础软件,数据库的种类非常多,常见的有从数据模型上对其进行划分的,包括关系型数据库、文档型数据库、图模型数据库,以及综合了多种模型的多模数据库等;再有从架构角度区分的,有单机型数据库、主备数据库、分布式数据库等;还有从应用类型的角度区分的,如 OLTP、OLAP 等;以及从技术特征区分的,带有时代特性,如 NoSQL、NewSQL 等。所以严格来讲,数据库没有固定的划分标准。

那么,整体来看,数据库领域 2021 年发生了哪些值得关注的大事件?业内资深大咖们又观察到了哪些技术趋势?

2021 年数据库领域重大事件回顾

2 月 24 日,华为云正式发布云数据库 GaussDB(for openGauss)全网商用。GaussDB(for openGauss)是华为基于 openGauss 自研生态推出的企业级分布式数据库,能为企业提供高可用、功能完备、性能卓越、开放生态、极致弹性的企业级数据库服务。

2021 年 3 月 19 日,中央政府采购网发布《中央国家机关 2021 年数据库软件协议供货采购项目成交公告》,21 家数据库厂商入围,其中除了甲骨文的 Oracle 和微软的 SQL Server,其余全部为国产数据库,份额达到 90%。

3 月 12 日,新华社受权全文播发《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》。其中值得关注的是,“开源”首次被明确列入国民经济和社会发展五年规划纲要。

4 月 25 日,PingCAP 正式发布面向企业级核心场景的 TiDB 5.0 版本。TiDB 5.0 在性能、稳定性、易用性等方面均取得了巨大进步,并在事务处理、高可用与容灾、安全合规等方面新增多项企业级特性,通过引入 MPP (Massively Parallel Processing,即大规模并行处理)架构成为具备完整 HTAP 能力的分布式数据库,为企业数字化转型提供一栈式数据服务平台。

5 月 11 日,浪潮发布开源国产数据库 ZNBase 2021 发展规划。ZNBase 是浪潮开源的一款 NewSQL 分布式数据库,具备强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性,支持完整 ACID,支持 PostgreSQL 协议访问,同时提供自动化运维、监控告警等配套服务。可为用户提供完整的分布式数据库解决方案。

5 月 18 日,腾讯云发布首款全自研分布式分析型数据库 TDSQL-A,以应对海量数据实时分析需求。这是腾讯云数据库在品牌升级后的首次新品发布。TDSQL-A 是腾讯首款全自研的分布式分析型数据库,支持行列混合存储,适应于海量 OLAP 关联分析查询场景,全面兼容 PostgreSQL 语法、高度兼容 Oracle 语法。

6 月 1 日,蚂蚁集团自研数据库 OceanBase 宣布开源,开放近 300 万行源代码,采用木兰协议,代码托管主站在 Gitee,镜像在 GitHub,同时成立 OceanBase 开源社区,社区官网同步上线。最新的 OceanBase 3.0 版本,让 OceanBase 同时具备了在事务处理和数据分析两类任务的高性能能力,升级为一款支持 HTAP 混合负载的企业级分布式数据库。和过去相比,事务处理性能提升 50%,数据分析性能提升 10 倍。

6 月 10 日,《中华人民共和国数据安全法》(简称《数据安全法》)经十三届全国人大常委会第二十九次会议表决通过,并将于 2021 年 9 月 1 日起正式施行。《数据安全法》出台,标志着我国将数据安全保护的政策要求,通过法律文本的形式进行了明确和强化,为数据作为新的生产要素推动创新和经济发展提供了法律依据,将为下一阶段数字经济的安全发展保驾护航。

6 月 20 日,全球公认三大数据库顶尖会议之首的 SIGMOD 在西安举办,这也是时隔 14 年后 SIGMOD 大会再度回归(2007 年 SIGMOD 第一次在中国北京举办)。

7 月 8 日,阿里云 RDS 数据库进行品牌升级,推出云原生企业级自治数据库。

7 月 9 日,国家电网有限公司具有自主知识产权的电力行业图数据库产品“GridGraph”在 2021 世界人工智能大会正式发布。中国工程院院士倪光南表示:“在图数据库自主创新方面,我国从 2019 年起开始自主研制电力专用图数据库,实现了核心技术工具的技术创新和自主可控,有力支撑了‘电网一张图’建设。

经过了近三个月的沉淀后,9 月 1 日,《数据安全法》正式落地实施。中国信息通信研究院联合 30 余家单位正式发起“数据安全推进计划”(Data Security Initiative,以下简称“DSI”)。DSI 是一个公益性合作项目,将依托大数据协同安全技术国家工程实验室、中国通信标准化协会大数据技术标准推进委员会、中国互联网协会数据治理工作委员会开展具体工作,致力于打造健康规范的数据安全生态体系,帮助企业了解监管要求,全方位提升企业数据安全能力。

9 月 17 日,TiDB 社区首批通过可信开源社区评估,获评 OSCAR 尖峰开源项目及开源社区。会上中国信通院云大所所长何宝宏发布了由 PingCAP 和中国信通院联合撰写的业内首个《开源社区成熟度白皮书》。

10 月 20 日,阿里云在 2021 云栖大会现场宣布正式开源云原生分布式数据库 PolarDB-X 的源代码,将自研云原生分布式核心技术分享出来,进一步推动云原生分布式数据库发展。

12 月 20 日,OceanBase 通过工信部电子标准院首批开源项目成熟度评估。

这一年,从业者看到的几大现象

近两年,作为基础软件之一,数据库可以称得上是最火热的一个赛道,这背后根本的原因是因为大家认识到了数据的重要性。技术发展到如今,上层应用和底层基础设施发生的了翻天覆地的变化,而这种变化一定会推动中间层——数据库的变化,也就是说,光靠传统的狭义的数据库已经无法解决当下的新需求了,我们需要一些新内容注入到数据库中。而这一年,关于数据库的发展,从业者眼中看到了几大现象。

数据库产品工程化程度变高

多家产品走向金融行业,开始落地生产环境

2010 年起,随着云计算技术的快速兴起,云数据库技术也顺势得到了迅猛发展,这给了国产数据库厂商弯道超车的机会。多家产品走向金融行业,开始落地生产环境。在过去的一年里,腾讯云 TDSQL 落地在中国银行和农业银行等;OceanBase 在金融行业拥有多个标杆案例客户如工商银行、建设银行、南京银行、广东农信、中华财险等,另外在运营商场景中也有落地,客户数突破 400+;而华为 GaussDB(for openGauss),主打政企核心业务负载的金融级分布式数据库,在性能、可用性、弹性方面全面提升,并且已经受金融业务全场景的严苛考验;PingCAP TiDB 成功应用于浦发银行、北京银行、浙商银行、中国人寿、平安科技、微众银行等多家金融企业的联机交易、在线支付、信贷管理、实时风控等场景。

各类型数据库走向“大一统”

随着云上技术和基础设施的日臻成熟,数据库领域迎来了的“大一统”。

数据库的种类纷繁复杂,以前集中式数据库和分布式之间有明显的边界,而近年来,这条边界正在逐渐模糊,集中式数据库和分布式数据库在慢慢融合,两者能够在同一套架构里互有补益,这是第一种融合。

其次,OLTP 数据库跟 OLAP 数据库也在融合,比如 OceanBase 底层是基于原生分布式架构,在解决数据量问题的同时,在一套系统里又能做好交易、也能做好分析,这是 OLTP 和 OLAP 的融合;TiDB 今年发布的 5.0 版本也提供了完整的 HTAP 混合负载处理能力,引入了 MPP 引擎,在实时性与一致性前提下实现 OLTP 和 OLAP 负载完全隔离,在中通快递双十一等读写双高的极致场景下提供优异的性能和稳定性。

第三个融合,是传统数据库跟炙手可热的大数据之间的融合。传统数据库更偏向结构化、事务化的数据的处理,大数据更偏向非结构化、非事务化的数据的处理。当前新型的数据库,既能处理传统数据库擅长的事务型工作,又能适配大量的 SQL 语法兼容当前的数据开发工作,甚至能进行非结构化、分布式计算的大数据类型工作,所以数据库基本上是朝着一个融合的趋势发展的。

其实数据库的“大一统”是业内人士一直在尝试去做的事情,只是彼时苦于云上技术和基础设施不够成熟而无法实现。但是最近两年,这些条件基本已经成熟了,所以 HTAP 才能变成了可能。

甩掉“落伍”数据库的包袱

因此甩掉“落伍”的数据库的包袱,对数据库的发展来说是一个利好。

新型数据库的迅速崛起,给传统数据库带来了一定冲击。以 Hadoop 为例,Apache Hadoop 作为一个完整的开源大数据套件,在过去的十多年里深刻影响了整个计算机界,但随着各类新兴技术的发展,面对种种新需求时,Hadoop 已经明显“力不从心”了。就在今年,13 个与大数据相关的 Apache 项目(包括 Sentry、Tajo 和 Falcon)宣布取消,这就给了新技术库腾出了更多的发展空间。

数据库的发展必须要跟业务场景相结合,新的技术要有场景和人去使用才会有它的进步空间,如果老旧的数据库架构一直占用着有限的应用场景,那么新技术的发展空间就会受到限制,因此甩掉“落伍”的数据库的包袱,对数据库的发展来说是一个利好。

资本进入,为数据库添了一把火

资本的进入,为数据库领域添了一把火。

资本都是逐利的,而在基础软件领域,数据库无疑是最受资本青睐的一块“大蛋糕”。2020 年 9 月,Snowflake 在纽约证券交易所上市,让人震惊的是,上市首日股价大涨超 110%,估值翻了一番多,从 330 亿美元增至 700 多亿美元,并一举成为了美国有史以来 IPO 规模最大的一家软件公司。

Snowflake 在股市中的强劲表现背后释放出了一种信号:开源及数字基础设施被资本盯上了!据《2021 年数据库发展研究报告》显示,从融资总量上看,我国数据库产业投融资在近几年呈井喷式爆发。从 2013 年开始,数据库企业逐步吸引了资本的目光。

据不完全统计,2021 年各企业完成千万级甚至上亿级融资数量在 14 轮以上。对比我国数据库初创企业成立时间分布可以看出,众多初创数据库企业经过几年的技术积累与市场运作,已逐步在资本市场崭露头角。资本的进入,为数据库领域添了一把火。

图片来源:国家工信安全中心整理

2022 年数据库未来展望

数据库并不是一个新领域,它已经发展了 40 年,可作为基础软件之一,它是一个既传统又古老的领域。回顾数据库的发展历史,1980 年到 1990 年属于商业起步阶段,此时 Oracle、IBM DB2、Sybase 以及 SQL Server 和 Informix 等开始出现。1990 年至 2000 年,开源数据库开始展露头角,出现了 PostgreSQL 和 MySQL 等。

在刚刚过去的 2021 年,随着资本的强势进入,各类型数据库趋于融合,数据库未来的发展趋势也将会发生一些改变,主要概括为以下几点:

开源将更加深入

就我国目前基础软件的现状来看,尤其是数据库领域,如果不做开源,基本上是不太有未来的。

最早的技术软件,比如一些数据库、存储和商业软件,其他都是不开源的,但是发展到一定阶段以后,都要经历开源的过程,数据库领域也是如此,主要原因在于:

第一、就我国目前基础软件的现状来看,尤其是数据库领域,如果不做开源,基本上是不太有未来的。这背后的这个原因很简单:对于用户来说,对于数据库这样重要的基础软件来说,如果它是一个黑盒,那么用户很难对它产生信任;

第二、开源的数据库更容易构建出属于开源数据库的生态。如果你是个闭源的数据库,就会将很多想要寻求合作的伙伴拒之门外,而且数据库如果最后要成熟、成功,它必须要依靠生态去推进,单纯依靠一项技术或者一个软件很难去构建出生态;

第三、现在的业务场景都是非常敏捷的,如果不是开源数据库,没有很好的开源社区来贡献力量,那么数据库厂商的视角永远是滞后的,因为只有搞业务的人才知道这个东西应该怎么用以及应该往什么方向发展。闭源的数据库反馈链条会特别长,而业务变化又很快,所以它是跟不上时代进步的。

而随着开源的日益深入,商业数据库的市场也受到了一定的冲击,有一些闭源的数据库的厂商,就可能推出历史舞台。然而,这种冲击也并非全是坏事,更多的数据库厂商在看到了这种冲击后,很快找到了一条可以平衡开源和商业化的道路。

其实开源数据库离真正的商业需求还是有一定差距的,开源数据库无法定制化地满足一些客户的特定需求和服务,这时候就需要开源数据库的商业版来弥补这样的不足,所以每一家云厂商还是能够在开源背后平衡好两者之间的关系的,当越来越多的人去使用数据库去解决它的业务问题时,将会创造更大的市场。

“云 + 分布式”数据库是大势所趋

所有面向云设计的数据库一定是分布式的。

2021 年,数据库领域可谓是百花齐放。而这其中,分布式数据库的表现尤为亮眼,很多业内人士将这一年视为分布式数据库的元年。

分布式数据库由多个相互连接的数据库组成,这些数据库组合在一起形成一个面向用户的单个数据库。实际上它们分布在各个数据中心,通过中央服务器进行通信。分布式数据库具有高可扩展性、高并发性和高可用性的特点。

根据 Gartner 测算,全球分布式数据库软件市场规模持续走高,年复合增长率达 16.9%;而根据 IDC 的预测,中国的关型数据库的市场则发展更加迅猛,年复合增长率接近 30% 左右,在这其中云数据库和分布式数据库的增长贡献非常大。

所有面向云设计的数据库一定是分布式的。Gartner 指出,云计算将主导数据库市场的未来,到 2022 年,75% 的数据库将被部署或迁移至云平台,只有 25% 的数据库会在本地运行。随着企业业务更加数字化、智能化,企业面临的数据存储量将会更加巨大,面临着更多突发状况带来的挑战,想要进一步降本增效并让数据更好地进行决策,那么就需要进入“云 + 分布式”的时代。

DB-Engines 今年 12 月份数据库排名显示,传统数据库霸主 Oracle 依然稳居榜首,但据去年同期分数下跌 43.86;知名开源数据库 MySQL 位列第二,分数较去年同期下跌 49.41,较上个月下跌 5.48;而位居榜三的微软 SQL Server 分数较去年同期下跌 84.07,稳占“同期跌幅榜冠军”。

此外,从 DB-Engines 发布的数据上还可以看出,开源数据库 PostgreSQL、MongoDB 虽然排名不及 Oracle 和微软 SQL Server,且短时间内与两者有一定差距,但 PostgreSQL 的分数较去年同期上涨 60.64,稳稳拿下了“本月同期涨幅冠军”。

图片来源:DB-Engines

图片来源:墨天轮

在全社会都在积极进行数字化转型的大背景下,传统数据库的很多技术如缓冲区管理、各种对象的创建等都受到了资源的限制,因此很难有更广阔的发展空间,而云原生数据库、开源数据库等新一代数据库正在加速崛起。

原创硬核技术将成为驱动企业成长的原动力

原创硬核技术的核心价值在于具有突破性,能带来巨大的增量空间。

任何一项技术,没有原创性、没有壁垒,都不过是空中楼阁,数据库产品也是如此。最近几年,对于数据库基础理论的研究也更加深入,许多厂商开始重视基础技术理论研究,这是一个好的开端。如 TDSQL 在事务处理的并发访问控制层面,对最核心的数据异常问题能展开体系化的研究,提出数据异常并指明造成问题的本质,并对数据异常进行分类研究,指出数据异常和隔离级别等的关系等。这就是基础理论的进步推动了具体技术的迭代。国产自研数据库技术要想进步,就需要在基础理论层面多做工作,基础理论的突破,会带来巨大的增量空间。

AI 和数据库更加融合

AI 与数据库是相互辅助的关系。

在过去的五十年中,数据库(DB)和人工智能(AI)技术都得到了广泛的应用。数据库系统已在金融、医疗等多个领域中得到使用,而人工智能技术借助算法、数据集、硬件等方面的进步,近三十年取得了飞速发展。二者的交叉技术通过结合数据库中系统设计、查询优化、数据管理等方面的技术和人工智能从历史数据中学习的优势,帮助解决各自的问题。

数据和人工智能,像一枚硬币的正反面,两者是不分家的。作为承载数据的数据库,它与人工智能的关系也同样十分紧密,人工智能中间的一些过程,比如存储、智能推荐等都要用到数据库,而人工智能也需要为数据库服务,比如当下很火的自治数据库,能做一些智能的搜索、优化、运维等工作,背后也都是 AI 的力量在推动,在数据库中融入 AI,会让那些靠人工操作基本搞不定的工作变得更简单,所以 AI for DB 是一条很新,但必须要走的路。

采访嘉宾(按姓名首字母排序):

方勇,好大夫基础架构部高级工程师

黄东旭,PingCAP 联合创始人兼 CTO

李海翔,腾讯 TDSQL 分布式数据库首席架构师

罗荣龙,中国电子科技集团子公司金信软件股份有限公司 高级技术专家

杨传辉(花名:日照),蚂蚁 OceanBase CTO