(报告出品方/作者:招商银行,刘玉萍)
1 数据库:信息系统承上启下的关键环节
1.1 数据库是信息化核心环节
数据库作为信息化的核心环节,是底层硬件基础资源与上层应用之间的重要支撑。根据Statista、IDC与Seagate的统计调研, 全球数据量将在2035年达到2142ZB,然而企业运营中的数据仅有32%能被存储利用,海量数据的涌现和分析能力需求提升, 数据库存储量将严重不足,未来对数据库需求迫切性有望显著提升:
从信息产业链角度分析:数据库作为信息系统承上启下的关键环节,向下调用硬件基础资源,向上为应用软件提供重要数 据支撑,是信息化中间的核心环节; 从国家政策角度分析:数字经济作为国家“十四五”建设的重中之重,数据作为新型关键生产要素,是推动数字经济发展 的关键一环,同时,国内数据库长期由海外厂商主导,在国内数据库行业快速发展下,国产数据库将迎来重要发展机遇。
广义的数据库通常指数据库系统,其包含数据库与数据库管理系统两部分,向上通过数据库管理系统支撑应用引擎,向 下以数据库承接文本、图像、声音等数据源,调动计算、网络、存储等基础资源。 1. 数据库(Database,DB)是按照一定的逻辑结构组织、存储、管理数据的大容量电子文件柜; 2. 数据库管理系统(Database Management System,DBMS)是对数据库进行统一管理和控制的大型软件,主要由内核组 件集和驱动组件构成,其中内核组件集按照功能模块划分为管理组件、存储组件、计算组件和网络组件。
1.2 七大维度全面梳理数据库发展历程
1.2.1 从七大维度对数据库发展历程进行详细梳理
回顾数据库70年发展历程,分布式、云计算、人工智能等创新技术和基础设施的发展陆续为演化注入新活力。本章将从数据 模型逻辑、技术架构、需求功能、部署方式、存储介质、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细 阐述,理清行业演化逻辑与发展趋势。
1.2.2 数据库发展特点:顺应市场需求,行业持续进化
顺应市场需求变化,数据库行业正持续进化: 随着大数据时代的到来,数据规模和逻辑关系复杂度进一步提升,其中非结构化数据的激增使得非关系型数据库迅速发展; 随着5G下的云计算、物联网等快速发展,对于数据分析的需求、响应速度、存储容量扩展、算力提升等均提出更高的要求, 使得分布式数据库得到快速发展; 信息化水平快速提升下,企业业务规模快速扩张,数据库的运维和管理成为新的难题,数据库云部署模式与借助AI自治成为 重要发展方向。
1.3 发展特点:顺应市场需求,行业持续进化
1.3.1 数据模型分类演化:NewSQL、多模引领新时代
数据模型的演化本质由底层数据规模、逻辑关系、类型等驱动,其路径是:层次->网状->关系->关系、非关系并行。在当前关系、非关系并行时代,新型NewSQL与多模数据库快速发展。传统SQL受限于其拓展性,在大数据发展下逐渐面临瓶颈, 而NewSQL提供了与NoSQL相同的可扩展性,而且仍基于关系模型,保留了极其成熟的SQL作为查询语言,从而保证了数据的强一 致性;同时,基于分布式架构,对接多种数据模型引擎,避免搭建多种类数据库的多模数据库快速发展。(报告来源:未来智库)
1.3.2 技术架构分类演化
分布式架构逐渐成熟
为了应对数据的海量增长并追求更低的扩容成本,数据库由单机、集中式向 分布式架构快速发展。随着信息化水平快速提升,对数据库的存储、读写并 发、扩容要求更高,集中式架构的“Scale Up”纵向扩容机制面临硬件性能 瓶颈,因此“Scale Out”式的横向扩容分布式架构成为新趋势,通过网络将 物理分散的数据库单元连接为逻辑上的统一整体。从集中式到分布式的演进 降低了对硬件性能的要求,使得企业数据库拓展成本大幅降低。
分布式架构逐步由分库分表中间件向原生分布式发展,以应对不同应用场景。 分库分表中间件早期主要以电商、社交起家的互联网公司自研为主,但由于其 对复杂查询事务的支持较差,难以应对业务瞬时高峰需求,因此更加便捷、可 靠的原生分布式数据库应运而生。按照具体实现方式可以分为两类:以 Greenplum为代表的主流MPP架构和以Cassandra、HBase为代表的分区分片架构。
AI技术赋能分布式架构
无共享架构凭借实现高可用、带宽要求低、易横向扩展和远程部署四大优势,逐步成为分布式主流架构。分布式架构由共享磁盘、 共享内存架构,逐步向纯无共享架构发展,在无共享架构中,每个处理器私有内存和磁盘空间,利用网络通信,“Scale Out” 式横向增加处理器和相应的内存、磁盘,从而避免事务对内存访问和网络带宽的竞争,提高处理性能。国产方面,无共享分布式 架构已经趋于成熟,如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南 大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无共享架构。
2 国内数据库市场发展趋势分析
2.1 行业规模与下游需求结构
数据库作为信息化核心环节,在国内大力发展数字经济建设的大背景下,数据库行业规模将保持快速增长。根据信通 院,2020年中国数据库市场规模为35亿美元(约合240.9亿元人民币),占全球总规模的5.2%。预计到2025年,全球 数据库市场规模将达到798亿美元。中国的IT总支出将占全球12.3%。预计中国数据库市场在全球的占比将在2025年接 近中国IT总支出在全球的占比,市场总规模将达到688亿元,CAGR为23.4%。
金融、电信、政务、制造、互联网五个行业为数据库行业下游主要需求领域,大数据应用快速发展为数据库提供增长 动力。根据信通院统计,其合计市场份额高达80%以上,2020年整体采购额超过192亿元。此外,根据赛迪顾问,2020 年国内大数据市场结构数据,其中互联网、政府、金融、电信、工业位列前五,占比分别为48%、14%、12%、9%、5%, 合计约88%,大数据应用与数据库需求结构基本吻合,预计随着大数据应用领域拓展与规模持续增长,将为数据库行 业规模增长提供充足动力。
2.2 强化数据库建设在“十四五”规划中被多次提及
去年各领域“十四五”规划陆续发布,数据库建设与应用在信息技术、金融、交通物流、农业等众多领域被多次提及,其中数 据库标准化攻关的重要性首次被提升到前所未有的高度。我们认为,随着数据库顶层设计不断加码,十四五期间,国产数据库 研发将步入快车道,国产数据库竞争实力将显著增强,行业有望进入加速发展期。
2.3 数据库市场增量需求
基于对数据库发展趋势与国家政策导向的分析,我们认为,未来数据库市场增量需求主要来自于以下三方面:1. 国产化进程逐步加速;2. 传统集中式数据库向分布式架构升级;3. 非关系型数据库应用场景不断丰富,得到快速发展。
2.4 非关系型数据库应用场景不断丰富,快速发展
2.4.1 数据库国产化浪潮不可阻挡
国产数据库能力不断提升,逐步抢占海外厂商优势领域份额。以Oracle、Microsoft、SAP、IBM为代表的海外厂商,一直以 来,因其产品具有更好的性能、稳定性、安全性、与海外ERP、CRM等更好地兼容性等优势,在企业核心OLTP业务场景一直 占据主导地位。近些年,随着国产数据库产品功能、性能水平不断增强,其产品水平已经逐步趋近于海外厂商,根据IDC, 在传统关系型数据库领域,Oracle、Microsoft、SAP、IBM合计份额从2019年66.8%下降至2021H1的48.5%,首次降至半数以 下,显示出国产数据库技术正趋于成熟,在海外厂商为主导的核心OLTP应用场景,已经逐步具备运营能力,国产化进程持 续加速。
2.4.2 集中式数据库向分布式升级
随着数据类型、规模的指数级增长,传统的终端计算场景已经难以应对 数据存储处理的工作量与复杂度。云计算通过存算分离、资源弹性动态 分配、边缘节点计算打破了传统计算场景的瓶颈,实现了当前数据处理 的需求,云计算场景的需求推动了分布式数据库的应用发展: 1. 通过资源池化管理实现物理或逻辑层的相互隔离与资源的自由伸缩, 具备弹性扩张、HTAP事务能力、多租户管理能力、高可用性,与云计算 场景需求相匹配。 2. 对多种访问接口和数据类型的兼容,可以实现对存储与不同物理服 务器、不同格式的数据进行结构与算法的优化,突破服务器类型的限制, 为上层不同类型的应用提供多模式的数据服务。
分布式架构凭借在经济性、安全自主、灵活性、可伸缩性等方面的优势,逐步实现对集中式架构替代。目前,互联网、金融、电信 等行业分布式升级进展较快,以金融和电信行业为例,其核心业务数据类型均为关系型数据库,此类集中式数据库所面临的业务体 量将呈现爆发性增长。由于单一硬件能力增长有限,所以无法依靠纵向升级硬件扩展存量数据库能力上限。而分布式数据库采用多 种模式实现数据的分散存储,将压力分散到不同服务器上,并不断通过增加存储或计算节点来实现弹性升级,克服了集中式数据库 的诸多缺点,业界已有分布式数据库在股份制银行、城商行、二三线城市运营商等实现了核心业务系统的改造落地,同时,去年12 月,腾讯分布式数据库TDSQL落地东吴证券核心交易系统,也标志着分布式数据库在券商核心系统领域取得突破。
2.4.3 非关系型数据库快速发展
我国非关系型数据库快速发展,正逐步进入世界前列。我国非关系型数据库主要以基于开源数据库如Redis、InfluxDB、 CouchDB等产品进行二次开发为主,根据DB-Engines 2022年2月排名,国内浙江智臾和阿里云TSDB,分别位列时序数据库第11、 21位;图数据库方面,欧若数网Nebula Graph、百度智能云开源产品HugeGraph、华为云GraphBase分别位列15、26、32位,显 示出国产NoSQL数据库正逐步趋近于世界前列。随着工业互联网、互联网创新型业务、车联网 等应用的快速发展,非关系型数据库应用将加 速落地。
3 国产数据库厂商详细梳理
3.1 达梦:融合新兴技术,独占鳌头十余年
科技创新,夯实信息化安全基石,蝉联国产数据库市占率冠军十余年。武汉达梦数据库股份有限公司(以下简称达梦)成立 于2000年,是中国电子信息产业集团(CEC)旗下基础软件企业,由中国软件与技术服务股份有限公司控股25%。达梦致力于数 据库管理系统的研发、销售和服务,为国内外数十万用户提供全栈数据产品和解决方案,为打破欧美等国的技术封锁,达梦 全自研底层逻辑代码,立足国内客户,深挖用户需求,先后完成了近60项国家及省市级的科研开发项目,取得了近400项研 究成果,获得国家、省部级奖励超过30项。据赛迪顾问统计:2000年以来,达梦在数据库市场的市占率已经蝉联冠军十余年。
达梦自研高性能数据库管理系统DM,不断融合分布式、云计算等新兴概念升级系统架构。DM系列自上世纪80年代开始研发实 验室原型,2000年初商业化,已经更新迭代8个版本,对灵活性、易用性、可靠性、高安全性等方面进行了大规模改进:分 布式架构实现动态分配计算资源、精细化资源利用;行列融合,支持超大规模并发HTAP;技术生态升级,支持多云环境部署。 研发大规模数据处理集群DMMPP,支持TB到PB级别的数据存储与分析。基于完全对等无共享架构,最多可将1024个DM8节点组 织为一个并行计算网络,支持HASH、范围、随机多种数据分布和水平、垂直、多级混合分区,提供高可用性和动态扩展能力。
3.2 南大通用:扩大生态领域,全面开花
南大通用入选专精特新“小巨人”企业。天津南大通用数据技术股份有限公司(以下简称南大通用)成立于2004年,注册资 金1.4亿元,近7年连续被赛迪顾问评为国产数据库龙头企业,并在2021年成功入选首批国家级重点专精特新“小巨人”企业。(报告来源:未来智库)
GBase系列基于Informix不断创新发展,从OLAP到OLTP,关系型->NoSQL->NewSQL,逐渐扩大生态,提高市占率。南大通用深 耕金融行业,自主研发国内首个基于列存的新型分析型数据库GBase 8a;2014年与IBM签署战略合作,获得Informix的源代 码和技术授权,站在巨人的肩膀上研发复杂事务处理数据库产品GBASE 8s,而后又融合分布式架构研发8c,提高系统可用性。
3.3 人大金仓:深耕关系型数据库领域
人大金仓产学研一体,快速发展,下沉市场,布局未来。北京人大金仓信息技术股份有限公司(以下简称人大金仓),由中 国人民大学 的 数据 库 专家于1999年发起创立,先后承担了国家“863”、“核高基”等重大专项,是中国电子科技集团有限 公司(CETC)的成员企业,在党政军及各级企业级市场应用广泛,目前已覆盖全国近3000个县市,完成装机部署近100万套, 入围工信部“2021年数字技术融合创新应用典型解决方案”。
集中关系型数据库领域发力,市占率持续领跑。据IDC统计,2019年下半年国产数据库市场的市占率中,人大金仓仅次于阿 里和南大通用,位列第三。相比前两名开疆扩土式的全面发展,人大金仓聚焦关系型数据库领域深耕,分别针对OLTP、OLAP、 HTAP场景研发Kingbase ES(KES)、Kingbase AnalyticsDB(KADB)、KSone系列数据库。结合信创改革浪潮,人大金仓积 极适配国产上下游芯片、操作系统、中间件等,与生态伙伴完成近万个产品兼容互认证,力图为用户持续提供稳定服务。 完善的数据迁移工具平滑、高效地解决异构数据库数据迁移难题,助力数据库推广。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。未来智库 - 官方网站