回顾过去一年:数据库领域的十大热门趋势

发表时间: 2024-03-13 18:00

作者 | 朱洁

策划 | 李冬梅

过去一年,行业信心跌至冰点


2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点,大家不再期待 V 型复苏拐点,信心开始逐步跌落,2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复,各行各业普遍艰难,公司裁员加剧,就业率创新低。数据库行业 2021 年的资本盛宴开始,众多创业者刚想闯进来分一杯羹,22 年底 23 年初就结束了,应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看,还是非常感慨和唏嘘。作为大起大落的亲历者,今天这篇我们一起来总结数据库行业在 2023 年的一些情况,我会尽量涉及到产品技术,厂商发展,市场环境等多个方面,受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。接下来就正式进入正题:

趋势一:HTAP 成为主流数据库的一项基础能力


数据库技术起源于美国,中国在这个行业里面不管是市场容量,技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别,有些方面国内非常火热,但是在国外缺完全不一样,反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术,HTAP 在国内比国外热,Serverless 则更是成为海外产品的 default 选项。


HTAP 概念能在国内火爆,TiDB 功不可没,甚至一度大家觉得这可能是一个细分赛道,不过经过几年下来,行业还是逐渐形成了一个共识,HTAP 是数据库的一项基础能力,而不是一个细分赛道,或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有:


23 年 10 月腾讯的 TDSQL-C 也列存索引,并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GaiaDB 4.0,重要升级就是推出列存索引和列存引擎,提升不同规模数据的查询速度,其中列存引擎最大可支持 PB 级数据的复杂分析,并且与事务处理业务严格复杂隔离。



海外这个概念提的比较少,Google AlloyDB 算是正式提过这个概念,AWS 重点宣传的是 Zero-ETL,本质上也是 HTAP 的能力,但总的来说海外对这个概念并不是特别感兴趣。

趋势二:Serveless 成为头部厂商的共识


Serverless 在美国经过 AWS 长达十余年不遗余力的宣传,早就深入人心,国内因为不同的市场环境,企业普遍还是喜欢预付费为主,所以这种弹性动态的优势就不明显,因此导致 Serverless 在国内发展缓慢。


数据库 Serverless 这块阿里发力最早,21 年就开始布局,23 年把 Serverless 作为主推方向,基本 TP,AP,NoSQL 各个方向都支持了 Serverless,甚至传统的 RDS 产品线,以及工具的 DTS 产品也开始支持 Serverless。


23 年 8 月份,腾讯的 TDSQL-C 也宣传支持 Serverless,并把主打的差异化点是可以完全释放存储,数据变成归档。业内的 Serverless 无法完全做到不使用不付费,一般实例暂停后仍然会收取高昂的存储费用,可释放存储将彻底解决这一问题。当实例暂停后,数据会进行归档存储。用户无需再为高额的分布式存储进行付费,可在原实例暂停后的存储费用上降低成本 80%。


年底的时候华为 GuassDB for MySQL 也全面商用,号称相比固定规格,Serverless 实例平均可降低使用成本超 30%,特定情况甚至有 80%+ 的成本降低。


所以从 2023 年开始,Serverless 可以说成为头部厂商的共识了,相信在接下来数据库 Serverless 会有一个长足的发展。

趋势三:国内在产品形态上部分开始领先海外


相比 HTAP,分布式产品在国内发展更充分,竞争对手很多,所以更值得说一说。分布式数据库国内 OceanBase,TiDB,PolarDB-X 都是比较有特色和竞争力的产品,其中阿里的 PolarDB-X 很早就开始布局和支持存储分离+分布式的技术,走一条存算分离,分布式一体化的技术路线。下图是阿里宣传的融合架构图:



2023 年 AWS re:Invent 上宣布推出 Aurora Limitless Database,本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构:



看到 AWS 这个新的发布,国内数据库圈子好一阵沸腾,觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在 2023 年某一天,而是一个逐步积累的过程。早在 2020 年的时候,国内的阿里云 RDS 产品能力就比 AWS 要强,提供了三节点,双节点,单节点,拖管,半拖管等多种形态,除了 AWS 形态,产品性能,规格丰富等都比 AWS 要强。


所以这个趋势并不能说是 2023 年的新趋势,这个趋势一直在发生;但是还是非常值得放到 2023 年重大趋势中拿出来说,这个还是非常明显标志着:随着国内的工程技术能力的逐步增强,会有越来越多的产品领先美国厂商。

趋势四:AI4DB and DB4AI 成功翻红


AI4DB,DB4AI 喊了很多年,谈不上新概念,不过在 2023 年大模型的带动下,数据库和 AI 结合又有了新的想象力,大模型的巨大威力,让厂商纷纷研究数据库和大模型的结合。


首先是 23 年 8 月份,腾讯云向量数据库(Tencent Cloud Vector DB)正式上线公测。作为一款全托管的自研企业级分布式数据库服务,腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟,不过半年后,直到笔者写这篇文章的时候,腾讯的向量数据库还是没有商用。


百度也赶在年底发布了单独的自研向量数据库,百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法,百亿级向量规模,毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库,还可以应用于图片搜索,音乐推荐,文本分类等领域。



23 年 12 月份,百度还发布 DBSC(数据库智能驾驶舱),这个是利用 AI 的技术,为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早,阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手,这个能力其实是非常考验产品知识的积累的。


NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面,支持以图搜图功能,应该说是一种探索,不过总体觉得还是比较难做出特色和实用价值的。


美国的 AWS 利用 AI 增强 ETL 能力,Google 利用大模型实现代码改写能力,也是在这个方向发力,国内的也有创业公司跟进,不过目前离成熟还需要一些时间。

趋势五:云厂商开始发挥软硬件垂直整合优势


应该说云厂商本质上先革 IDC 的名,再革各种基础软件的命,要相比客户自建有明显的优势,推出自研,走垂直整合是必选道路。前一个非常成功的 2C 厂商是苹果,2B AWS 也是复制这条道路。国内总体差距比较大,云厂商里面华为,阿里跟进的比较快,都推出了 ARM 系列芯片,国内目前最强的应该是华为的鲲鹏系列。


2023 年开始阿里的全线主力产品都进行了适配,阿里发布的 RDS 经济版本就是 适配 ARM 系列,基于倚天/ARM 芯片服务器上持续优化,提高性能,定价则是只有 X86 实力的 60%~70% 的价格,通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够,所以是经济版本,长期看,ARM 应该要能能力迭代更快,长期发挥比 X86 更好的能力。如果走向这一天,云厂商的相比自建客户的优势将进一步拉大。


华为、阿里的动作标志着云厂商 2023 年也开始发挥垂直整合的优势,不过总体来说国内的发展水平相对美国还是差距比较大。

趋势六:RDS 还是常青大盘产品,NoSQL 创新相对较少


2023 年我们观察到,NoSQL 是随着互联网场景诞生的,随着十多年的发展,开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能,分布式,高可用的优势,关系型数据库反倒有不少进展。


阿里云栖大会,集中展示了阿里 RDS 的进展,包括解决通用云盘 IOPS 和容量解耦的问题,通过冷温热数据分层,读写性能提高 102%,存储成本降低 90%。内核层面也有创新,通过 binlog 并行解析,缩短 crash/recovery 时间,改进 RTO 事件,支持表级别、行级别压缩;冷温热数据分层,降低客户使用成本等等。应该说从产品形态,计费,内核全方面进行了改进。


整个行业在 NoSQL 这块相对而言就乏善可陈了。


另外 中立厂商 NineData 进行了第三方公开 RDS sysbench 测试,华为云,百度云分列第一二位,反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的,阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展,期待传统的缓存,文档数据库以及一些细分时序,图等领域有更多的创新点。

趋势七:国产数据库纷纷演进 RAC 架构,企图突破集中式架构


RAC 架构是 Oracle 经典架构,在 Oracle 10/11 就已经推出。


互联网厂商因为数据量特别大,Oracle license 又特别贵,所以纷纷用 MySQL,叠加各种分布式技术来实现 Oracle 的替代,这就是轰轰烈烈的去 IOE。所以在过去的一段时间,有认为 RAC 就是落后的代表,但是随着时间的发展,大家还是纷纷发现,一般的企业不一定需要那么大的数据量,在这种场景下 RAC 优势就比较明显了。


所以 2023 年在私有化场景上有一个非常明显的趋势,就是国产数据库厂商纷纷发布了类似 RAC 技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了,优璇再次发布了 SuperRAC,人大金仓也很快会推出共享存储多读多写的产品,高斯的 RAC 版本已经在路上了,虚谷伟业的 RAC 也在开发中。


但同时有意思的是,国内纷纷支持 RAC, 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景,适合的场景选择适合的技术,未来大概率通用数据库会走的道路是分布式存算分离一体化的道路,给客户丰富的选择。


趋势八:国内融资环境异常艰难


前面讲的都是技术方面的,除了技术外,市场环境,厂商发展在 2023 年也是精彩纷呈,值得一看,接下来说几个关键点。


首先就是 2023 年国内的融资环境异常艰难,相对于 2021 年的高歌猛进,2023 年异常冰冷,市场上绝大部份公司都很难融资,只有少数的公司获得融资,而且金额也不是很高。


所以我们会看到国内很多大佬纷纷下场,预言 2027 年国内数据库厂商十家,二十家左右。应该说国内数据库厂商现在是有点多了,近 300 个数据库,200 家厂商,而数据库又是一个非常通用的产品,所以是非常难容得下这么多的厂商的,至于是十家,还是二十家不关键;关键是怎么在这个残酷的市场竞争力活下来是非常考验的。


总的来说,我相信最有创新能力,客户服务能力强的厂商会活下来。

趋势九:信创提速


信创从 2019 年大力推行以来,金融行业走的最快,金融行业基本完成了大行,股份制的划分,推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录:


http://www.itsec.gov.cn/aqkkcp/ywjs/。


另外除了金融行业,明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈,导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万,离健康的 500 万差 10 倍以上。


信创就是个双刃剑,给了数据库厂商希望,估计未来大量倒闭的也是出在这个领域。

趋势十:头部独立厂商商业化能力越来越强

最后一个趋势,留给在数据库行业挣扎的企业。


应该说宏观环境很不好,但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入,获得了一些标杆客户,像包括新零售行业的海底捞、二维火和客如云,制造业的理想汽车,互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash,以及跨境行业的洋葱集团、纵腾集团、递四方等。


TiDB 还在持续拓展海外客户,包括尝试 Serverless 等,和 AWS 合作在客户上也有不错的进展。


国内深圳计算所推出的崖山数据库,是今年的异军突起,有一些标杆客户,主打 Oracle 兼容,包括推出个人版已向所有用户和开发者全面开放下载,大家可以去尝试使用一下。

2024 年,数据库领域将是柳暗花明又一村


2023 艰难的一年过去,迎来了有希望的 2024 年。展望 2024,我们判断未来会有这么几个大的趋势:


  • AI 代码改写会越来越成熟,Oracle 转 MySQL,PG 预计会变得很简单。
  • 向量数据库会走向更务实的实用阶段,预计在智能问答,助手等领域会有更多实际应用。
  • 存算分离和分库分表分布式技术会走向融合。
  • 1~2 年之内,Serverless 在国内会变得很普及,各个云厂商都预计会推出 serveless 数据库产品。
  • 数据仓库领域,湖仓一体化,会成为数据仓库的主要形态,形成共识。
  • 2024 年应该会是数据库的转折点,有一些数据库厂商会被淘汰。

原文链接:

https://www.infoq.cn/article/fUelqKXZr63sWoSAdEqD