(报告出品方/作者:中银证券,杨思睿、刘桐彤)
非关系型数据库开始崛起
首先,我们观察数据库行业本身的发展驱动力情况。除了数据量的增长,最主要的驱动因素是新技 术的产生。数据库行业近年来出现向非关系型数据库发展的趋势。 数据库是用于组织、存储和管理数据的仓库,通常由数据库管理系统 (DBMS) 来控制。数据库管理系 统具有数据定义、操作、存储与管理、维护和通信等功能,且能够允许多用户使用。数据、数据库 管理系统及关联应用一起被称为数据库。数据库向下调用底层硬件资源,向上支撑应用业务,是三大 基础软件之一。
数据库可按数据模型、部署方式、架构模型和业务负载特征进行分类。按数据模型分类:关系型数 据库以二维表形式存储结构化数据,非关系型存储半结构化及非结构化数据。以部署方式分类:数 据库可以部署于本地服务器上或云计算资源上。按架构模型分类:集中式不对数据进行分片,数据 被集中存储在存储设备中;分布式则将数据分散到不同的计算机上。按业务负载特征分类:交易型 数据库(OLTP)又称事务型数据库,主要进行在线实时业务处理,例如银行交易等;分析型数据库 (OLAP)擅长于处理离线分析业务,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询 结果;混合负载数据库(HTAP)能够同时完成在线交易和统计分析功能。
非关系型数据库于 21 世纪初兴起。数据库始于于 20 世纪 60 年代,1968 年 IBM 公司开发出世界上第 一个层次数据库管理系统 IMS,这也是世界上首个大型商用数据库系统。进入 70 年代,关系型数据 库系统开始成为主流。1975 年,SQL 语言被提出,随后 IBM DB2、Oracle 等商业关系型数据库陆续诞 生。90 年代 MySQL、PostgreSQL 等开源数据库涌现。随着互联网、云计算的发展,影音、文档、流 媒体等非结构化数据大幅度增加,非关系型数据库(NoSQL)应运而生。NoSQL 多数采用分布式架构, 减少了对复杂查询的支持,性能相比关系型数据库大大提升。2009 年,文档数据库 MongoDB 掀起了 一场 NoSQL 潮流,同期,Cassandra、HBase、ElasticSearch、Redis 等非关系型数据库纷纷涌现。目前 MongoDB 数据库已位列 DB-Engines 排行榜第五名。
数据库市场达百亿元量级
基于技术和产品的趋势理解之上,我们可以对新老市场进行市场规模的测算。 数据库产品市场仍以关系型数据库为主导。关系型数据库以行和列的形式存储数据,其数据具备关 联性。常见的关系型数据库包括 Oracle、MySQL、Microsoft SQL Server、PostgreSQL 等。非关系型数据 库常用于存储非结构化的数据,可支持键值(key-value)、文档、图片等数据存储格式,相对关系型 数据库使用更加灵活,应用场景广泛,但无法保证数据的完整性和安全性。IDC 数据显示,2017-2021 年全球关系型数据库占据 80%以上市场。
2021 年国内关系型数据库市场规模近 200 亿元,国产替代规模约为 56 亿元。根据 IDC 数据,2021 年 H1、H2 国内关系型数据库市场规模分别为 11.9、15.8 亿美元,总计约合 185 亿元,其中本地部署关 系型数据库份额约为 44.4%,公有云关系型数据库约占 55.6%。本地部署模式下,Oracle、Microsoft、IBM、 SAP 等外国厂商份额下降趋势明显。截至 2021 年 H2,四大国外厂商份额之和已由 2019 年的 66.8%下 降至 43.9%。公有云模式下,阿里、腾讯占据 60%以上市场份额,国外厂商份额之和基本保持在 20% 以下。以 2021 年数据估算,关系型数据库(包括本地部署和公有云)国产替代规模约为 56 亿元。
自下而上测算,国内信创数据库潜在替换空间有望超 600 亿元。 假设 1:全国公务员及事业单位人数 4000 万,国有企业人数 4000 万,其他企业人数 6 亿。公务员、事 业单位及国有企业人均电脑配比为 1:0.6,其他企业配比为 1:0.013。所有企业使用计算机数量为 5580 万台,与 2019 年国家统计局公布数据基本一致。 假设 2:PC:服务器=20:1,服务器:数据库=5:1。 假设 3:政府、事业单位、国有企业数据库采购单价为 12 万元(参照 2021 年中央国家机关数据库软 件中标企业提供的单价),其他企业采购单价为 4.5 万元。
增量市场:海量数据提供增长动力,重点关注分布式、非关系型等新兴数据库
数据库市场增长主要受以下因素带动:
1. 数据量的激增将会带动数据库产品规模增长。数据库是组织、存储和管理数据的仓库,海量数 据的爆发将催生数据管理的需求。根据 IDC 与浪潮联合发布的最新报告显示,2020 年全球大数据 储量为 50ZB,而到 2025 年将达到 175ZB。
2. 分布式、非关系型数据库增长迅猛。在面临海量数据的背景下,传统关系型数据库采用纵向扩 展(scale-up)的方法,即通过增加更多的 CPU、内存和硬盘来提升数据管理能力;而分布式则 采取横向扩展(scale-out)思路,把数据分散到不同的计算机上。位于不同地点的计算机通过网 络互相连接,共同组成一个完整的分布式大型数据库,以实现降本增效。根据 DB-Engines 的排行, 传统关系型数据库 Oracle、MySQL 和 Microsoft SQL Server 依旧保持排行榜前三名,但 Snowflake、 MongoDB 等分布式数据库排名显著提升。根据艾瑞咨询的预测,借助 NewSQL、SQL on Hadoop、 NoSQL 等新技术架构的非关系型数据库将是整个市场中增长最快的细分领域,到 2025 年可以实 现十倍以上的扩张(同 2020 年相比)。
2025 年我国数据库市场规模有望突破 500 亿元,实现 4 年近两倍增长。根据 IDC 数据,2021 年中国数 据库市场规模约为 27.7 亿美元(约合 185 亿人民币)。随着数据量的爆发式增长,IDC 预计到 2025 年 76.7 亿美元(约合 513 亿人民币),4 年 cagr 达 29%。未来四年内,市场规模有望实现 4 年近两倍 增长。
政策催化,整体进程显著提升
数据库的国产化不仅是信创整体的要求,而且有自身独特的重要性,尤其是考虑供应商的集中度 (Oracle 等厂商占比极高)、数据安全的紧迫性以及和其他信创产品的联结性。2022 年 3 月,Oracle 宣布暂停俄罗斯业务,数据库自主可控重要性凸显。“十四五”规划提出要培育壮大人工智能、大数据、 区块链等新兴数字产业。在信息技术、金融科技、交通物流、农业农村对外贸易、公共服务、智能 制造等细分领域,国家为各行业在“十四五”期间的数据库应用创新提出政策指导。在不同领域的“十 四五”规划中,有数十份涉及数据库相关政策。
国产数据库中标比例显著提升。2020 年中国移动进行 OLTP 自主可控数据库联合创新项目招标,此次 招标首次将数据库相关服务纯国产化列为采购要求,最终南大通用、人大金仓、阿里云、万里开源、 中兴通讯中标。在 2021 年中央国家机关数据库集采中,达梦、人大金仓、阿里、腾讯、新华三等十 余个国产数据库品牌入选,而国外品牌则仅有 Oracle 和微软。相比 2019 年,国产厂商在事务型数据 库及分析型数据库市场中份额均显著提升。
金融数据库信创落地较快,未来有望向其他行业全面铺开
考虑到产品的成熟度需要一个应用、反馈、改善的迭代过程,我们认为国产数据库会经历一个从重 点行业先行落地、改善,随后再普遍应用的过程。金融等行业预计会是先行适用的重要领域。 2021 年金融 IT 投入超 1800 亿元,未来有望向其他行业全面铺开。自 2020 年完成试点后,2021 年金 融信创元年开启。根据零壹智库对工信部及下属机构、地方经信委等职能部门公开的优秀信创案例 情况的统计,截至 2021 年 12 月底,金融在八大行业中进展最快,落地实践率达 29.55%。根据头豹研 究院的《2021 年中国金融级分布式数据库市场报告》,2021 年主要商业银行的 IT 投入高达 1898 亿元。 未来数据库信创将向工业、电信、能源、交通等行业全面推进,演变为带动央企及地方国资企业在 信创领域的全面布局,形成最终的“2+8+N”格局。
众多银行已开启数据库国产替换。根据沙利文的测算,银行对于金融级数据库的市场需求占比较高, 达 78%,而非银金融为 22%。同时,银行业数据库投入占比较大,占软件整体投入的 60%。工商银 行、邮储银行、民生银行、北京银行等纷纷开启国产数据库替换,入选品牌包括华为 GaussDB、和 openGauss、巨杉数据库的 SequoiaDB、PingCAP 的 TiDB 等。
从投资的角度看,既需要考虑相关标的技术性(产品成熟度、生态完备情况和国产替换对客户带来 的学习曲线),也需要考虑自身的财务表现。我们大体上还是按照传统和新兴的方式进行划分,但 这仅反映相关企业的技术优势,各个企业基本上还是充分竞争的关系。
传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”
国内数据库厂商大体可分为两类:传统数据库厂商以达梦、人大金仓、南大通用、万里开源、神舟 通用为代表;新兴数据库厂商主要以 PingCAP、巨杉数据库、星环科技等初创企业为代表;除此之外, 腾讯、阿里等云厂商以及中兴、浪潮、新华三等 ICT 厂商也提供数据库产品及服务。
传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”。 传统数据库以交易为核心,主 要针对交易系统的渠道、产品、客户、核算及清算等业务流程,以集中式架构为主。在该赛道,Oracle、 IBM 等厂商已经领跑近 20 年,国产厂商追赶存在较大难度。而新兴数据库以数据为核心,依托分布 式技术,面向交易过程产生的全量行为数据、流水数据等,解决数据的采集、整理、聚合、运用等 问题。在分布式数据库、云数据库、湖仓一体架构等领域,国内外厂商几乎处在相同的起跑线。
新兴数据库在高并发场景表现突出,传统数据库主要针对业务紧耦合场景。相对于传统数据库,新 兴数据库具备以下优势:1.能够处理半结构化及非结构化数据,包括文档、图片、时序等。2.能够承 载高并发量的业务。分布式数据库具有弹性、业务敏捷的优势,可以支持海量数据的并发处理,更 适用于高频发、大吞吐的互联网、金融等场景。而传统集中式数据库面对巨量数据时,往往不具备 稳定的高并发能力。但分布式数据库并非通用产品,需要基于客户业务的场景特点进行拆分,因而 更适合具有地理分布特性的组织或机构使用。并且在对分布式数据库进行设计时,数据的划分对系 统的性能、响应速度、可用性有着极大的影响。因此对于业务紧耦合的场景,更适于使用集中式数 据库。
新兴数据库:主要针对非关系型及高并发场景
1. 星环科技:对关系型数据库的分析型场景进行替代,金融领域具备较强优势
公司专注于大数据市场,2024 年大数据软件市场规模有望达 492 亿元。星环科技属于企业级大数据 基础软件开发商,考虑所处的技术环节,我们也可将其看作数据库厂商。近几年数据量快速增长、 非结构化数据类型增加,传统数据库难以解决大数据“4V”问题,即规模性、高速性、多样性和价值性 的问题。数据处理需求的变化推动了数据管理软件技术的变革,带动了以分布式技术为主的大数据 管理平台软件快速发展。根据沙利文研究报告,大数据软件市场由 2015 年的 52 亿元增长至 2019 年 的 146 亿元,预计 2024 年将达到 492 亿元,2019-2024 年 CAGR 为 27.5%。
公司在大数据平台软件市场中份额靠前。在大数据领域,以 Oracle、IBM 和 Teradata 等为代表的关系 数据库的扩展性、容错性、经济性、灵活性存在局限性,因此新兴的分布式数据库在特定领域正逐 渐替代传统关系数据库。在国际市场,以 Cloudera、MongoDB、Snowflake、Elastic 等为代表的公司具备 较强的技术积累。在国内市场,以华为云和阿里云代表的云厂商,基于自身在公有云的优势,在市 场上具备领先优势;新华三等 ICT 厂商,也对大数据软件产品进行了布局,2021 年上半年浪潮和新 华三份额之和达 8.5%;星环科技排名第 7,市场份额达 1.3%。
公司专注于分布式和数据云技术。围绕数据的集成、存储、治理、建模、分析、挖掘和流通,星环 科技提供全生命周期的基础软件及服务。其产品包括大数据与云基础平台软件(TDH 和 TDC)、分 布式关系型数据库(ArgoDB 和 KunDB)、数据开发与智能分析工具(TDS 和 Sophon)。
公司产品主要面向分析型和高并发型场景。TDH 大数据基础平台可以处理包括关系表、文本、时空 地理、图数据、文档、时序、图像等在内的多种数据格式,且支持 Oracle、IBM DB2 和 Teradata 等数 据库 SQL 方言以及 Oracle PL/SQL、IBM DB2 SQL PL 等 SQL 扩展,是目前大数据领域对 SQL 标准支持较 为完善的产品之一。TDC 数据云平台是将大数据基础平台、分布式关系型数据库、智能分析工具等 大数据软件以 PaaS 云服务的方式提供给客户。ArgoDB 是面向数据分析型业务场景的分布式闪存数据 库产品,主要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。KunDB 是公司研 发的一款面向数据操作场景的分布式交易型数据库,主要用于支持操作型业务场景(如 ERP、OA、 HIS 等)和高并发场景(如消费者的手机 APP 应用、健康码查询等)的核心数据系统的构建。
公司在金融领域具备较强优势,可对关系型数据库的分析型场景实现替代。公司在金融、能源、制 造、交通等多个行业的核心业务系统领域进行国产化替代,其中金融行业占公司收入比重较大,2021 年达 43%。公司主要替代对象包括传统关系型数据库 Oracle、IBM DB2、Teradata 等,解决了传统数据 库不能处理大量半结构化和非结构化数据等问题。
2. 拓尔思:在党政领域对 Elastic Search 实现大量替换
搜索引擎技术是处理非结构化数据的关键,对应国内市场规模近 30 亿元。当前国产化替代主要在关 系型数据库领域进行,非关系型数据库领域较少涉及,但根据拓尔思援引数据,非结构化数据(如 管理制度、业务报告、研究和法律报告等)占数据总量的 80%以上,且很多业务的重要见解都隐藏 在非结构化数据中。非结构化数据的处理需要依赖基于全文检索的搜索引擎技术,根据 IDC 测算, 搜索系统、内容分析和认知/AI 软件平台的市场规模约 80 亿美元。参照中国信通院数据,2020 年中国 数据库市场规模占全球比例约为 5.2%,以该比例测算,国内搜索系统、内容分析和认知/AI 软件平台 的市场规模近 30 亿元。 在国内搜索引擎数据库市场,ElasticSearch 占据主要份额。在搜索引擎领域, ElasticSearch 以其灵活 的配臵和强大的性能,加上阿里等国内大厂的支持,在市场中占据着主导的地位。ES 自发布以来迅 速占领了全文搜索引擎市场,目前很多企业已放弃自主研发,逐渐转投 ES 阵营。根据 ES 财报显示, 公司在 2021/2022 财年的营业总收入达到 8.62 亿美金,其市场规模保持 30%以上的年均复合增长率。
拓尔思数据库为纯国产自研,已在党政领域对 ElasticSearch 进行大量替代。TRS 海贝大数据管理系 统(简称海贝)是拓尔思自主研制的搜索引擎数据库,适用于数字、文本、地理位臵、结构化数据、 非结构化数据等所有数据类型,能够兼容 ES 常用接口,可平滑替代 ES。目前海贝在电子政务领域 装机量已过万套,为“信用中国”提供内容发布和信用数据检索服务,服务了部级、8 个省级以及 16 个市级平台。
3. 海量数据:依托华为 openGauss 打造核心优势,高并发场景下表现优异
紧抓华为 openGauss 机遇,坚持“一核两翼”业务布局。海量数据在经历了产品代销阶段后转型自研 数据库。在华为开放开源 openGauss 后,公司推出了基于 openGauss 的数据库产品 Vastbase G100。公 司坚持“一核两翼”业务布局,“一核”即数据库核心业务,包括 Vastbase 海量数据库产品;“两翼”即数据 计算与数据存储,包括 Vastorage 存储产品和 Vastcube 系列的服务器及数据库一体机产品。
依托华为生态打造核心优势,高并发场景下表现优异。海量数据是 openGauss 生态贡献仅次于华为的 第二大社区贡献者,公司针对 openGauss 内核进行了创新优化,提升了数据库的并发性。根据中国软 件评测中心的测试结果,在两路鲲鹏服务器下,Vastbase2.0 版本可以达到 139 万的 tpmC 值;Vastbase2.2 版本可达到 154 万 tpmC 值。目前公司已为 2000 多家大中型企业客户提供了产品和技术服务。海量数 据库在高并发、高性能场景下得到广泛应用,公司客户包括比亚迪、中华联合人寿等。
传统数据库:重点对关系型场景进行替代
传统数据库厂商依然占据主流地位。根据 DB-Engines 2022 年 12 月的排名,全球前 10 款最受欢迎的数 据库中有 7 款是传统关系数据库。据信通院统计,在我国仍有 60%的数据库产品属于关系型数据库。
1. 达梦:采用全自研路线替换 Oracle,党政为公司优势领域
达梦市场份额领先。达梦为中国电子信息产业集团 CEC 旗下基础软件企业,其大股东为中国软件, 持股比例达 25.21%。根据 IDC 数据,2021 H1 及 2021 H2,达梦在关系型数据库(本地部署模式下)的 市场份额分别 5.7%和 11%,在国内专注于数据库领域的厂商中份额保持第一,且逐步缩小和 Oracle 之间的差距。
达梦数据库采用全自研路线,可对 Oracle 数据库实现平滑迁移。达梦产品具有完全自主知识产权, 其代码自主原创率达 99.9%,并且在安全性方面达到了目前国产数据库最高安全级别。达梦 DSC 对 标 Oracle RAC 架构,能够实现柔性替换。在源端是 Oracle 的情况下,达梦数据库可将多数对象(表、 视图、函数、存储过程、触发器、包等)进行平滑迁移,即在业务不中断的情况下实现无感知、平 滑切换。
达梦具备全栈数据产品和解决方案。DM8 是公司新一代大型通用关系型数据库,在兼顾 OLAP 和 OLTP 的同时,满足 HTAP 混合应用场景。新一代分布式数据库 DMDPC 是公司推出的分布式数据库产品, 主要适用于金融科技、工业互联网、物联网场景。达梦数据交换平台软件 DMETL 将传统的 ETL 工具 (Extract、Transform、Loading)与分布式消息平台相结合,能够实现构建数据中心、数据仓库等功能, DMETL 已被广泛应用于公安、信用、电力等多个行业的数据中心项目中。
达梦在党政领域优势突出。公司党政收入占据大头,根据招股说明书,2019 至 2021 年,党政占公司 收入比重分别为 48%、63%、59%。党政系统多数使用 Oracle 数据库,而公司基于自研技术进行研发, 满足自主可控需求。达梦数据库与 Oracle 的兼容程度达 95%以上,能够实现平滑迁移,在党政系统 具备竞争优势,承接了湖北省应急管理厅、最高人民检察院、海南社保金保信通等多个项目。
2. 人大金仓:份额位列第二,行业覆盖广泛
数据库厂商中公司份额排名第二。人大金仓是中国电子科技集团公司(CETC)成员企业之一,其大 股东为太极股份,持股比例达 33.28%。根据 IDC 数据,2021 年 H1、H2 公司在关系型数据库(本地部 署模式下)的市场份额均为 5%,在数据库厂商中排名第二。 公司主要产品涵盖通用型、分析型及 HTAP 分布式数据库。KingbaseES 面向事务处理,适用于数据仓 库、决策支持、高级分析等分析类应用场景并且能够兼顾简单分析应用;金仓分析型数据库系统 KingbaseAnalyticsDB(KADB)定位于数据分析类应用市场,适用于数据仓库、决策支持、高级分析等 分析类应用场景,可以处理 TB-PB 级别的数据;KSOne 是人大金仓自主研发的分布式关系型数据库 系统,具备企业级复杂事务混合负载能力,支持大规模横向扩展以及 PB 级海量数据存储。
人大金仓覆盖行业广泛。金仓数据库产品广泛服务于电子政务、国防军工、能源、运营商、金融等 60 余个关键行业。能源领域主要客户包括国家电网、南方电网、中石油、国家管网等;金融客户主 要包括人民银行、农业银行、中国银行等;军工领域客户主要为中国船舶、中核集团等。
3. 南大通用:金融、运营商领域优势突出
南大通用于 2004 年由天津南开创元和北京宏泰安信司联合创立。公司主要数据库产品包括 GBase 8a 分析型数据库、GBase 8s 共享存储的数据库集群和 GBase 8c 多模多态的分布式数据库等,分别面向 商业分析和商业智能市场、OLTP 应用场景以及 OLAP 等场景。
公司在金融、运营商领域具备领先优势。GBase 8s 适用于 OLTP 应用场景,包括金融、电信行业的关 键核心业务系统,能够提供 7*24 小时不间断运行处理能力,在 80%以上场景中可以替代国际主流数 据库。GBase 8a 在电信领域取得规模化市场应用,三大运营商均为公司客户,在中国移动集团下一 代数据仓库选型测试中,GBase 8a 排名前三,是唯一入围的国产产品。
4. 神舟通用:具备国资背景,航天、军工及政府领域占优
神舟通用隶属于中国航天科技集团(CASC),是神舟航天软件技术股份有限公司控股子公司,神舟软 件持股比例达 81.08%。神通数据库套件包括数据采集、数据分析、数据存储和数据展示四部分。其 中神通 T-Miner 用于对文本数据进行分析和挖掘;K-Cuber 能够对大型数据库进行在线数据分析,并支 持对关键业务指标的快速对比和灵活预警;K-Miner 对蕴含在企业运营数据中的各类规律进行深度探 索和挖掘,并抽象出对应的数学模型帮助用户进行经营策略的制定或调整。
航天、军工及政府为公司优势领域。在航天领域,公司承担了中国航天科技集团型号设计、测试、 运维数据管理系统项目和中国航天科技集团综合管理信息系统项目。在军工行业,公司搭建了全军 信息化数据存储平台和基地军事训练管理信息系统。在政府领域,公司完成了公安部首个部一级的 国产数据库应用。
5. 万里开源:MySQL 高覆盖率及数据库强实时性打造金融行业核心优势
公司主要数据库产品分为分布式和集中式。GreatDB 分布式能够实现基于内存计算的 TP 与 AP 混合负 载支撑,适用于大数据量高并发低延迟的事务型场景及轻量分析型场景和核心业务中对数据一致性 要求高的场景。GreatDB 集中式提供完备的事务支持,能适用于要求苛刻的在线事务处理(OLTP)应 用场景。
公司基于 MySQL 技术路线研发,MySQL 在金融行业广泛应用。公司成立于 2000 年,原为 MySQL 中 国研发中心,是创意信息的控股子公司。2021 年 4 月,公司创立 GreatSQL 开源社区,通过对 MySQL 技术的优化,目前已成为国内最主要的 MySQL 技术开源分支之一。在开源技术路径中,MySQL 占据 较大份额,根据中国信通院的数据,在统计的 81 个关系型数据库中,有 28%的数据库是基于 MySQL 开发的。根据公司调研,90%的金融机构已广泛应用或试用开源软件,其中超 9 成金融机构应用了 MySQL 数据库。工商银行、建设银行、招商银行、民生银行、中国银联和泰康保险 6 家金融企业的 MySQL 数据库投产节点规模超过 1000 个,其中,中国银联、工商银行、招商银行超过 4000 个节点。
公司事务型数据库具备强实时性和一致性,数据库在金融领域优势突出。2019 年,万里数据库与光 大银行基于万里数据库源码联合研发了 EverDB 数据库,并应用于某国有大型股份制银行的云缴费、 统一支付平台等核心业务系统中。通过两地三中心的部署方案,实现事务强一致,打破 Oracle 数据 库垄断。除此之外,万里数据库 GreatDB 还对瑞银信 POS 支付系统数据库进行了替换,满足了瑞银 信大数据量、高并发、业务持续增长的需求,解决了扩展成本高、故障处理效率低下、运维困难等 诸多问题。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。「链接」