OceanBase数据库:迈向一体化的新里程碑

发表时间: 2024-04-23 18:23

“浪奔,浪流,万里涛涛江水永不休”,一曲《上海滩》,“淘尽了世间事,混作滔滔一片潮流”。
技术江湖也是如此,各路豪杰对技术的追求永不止步,引领潮流,各领风骚。而数据库作为基础技术“皇冠上的明珠”、存储与处理数据的关键技术,自然也不例外。SQL、NoSQL、NewSQL,集中式、分布式……你方唱罢我登场。
《三国演义》有言,“话说天下大势,分久必合,合久必分。”
人们对数据的诉求,涉及采集、处理、分析等多个阶段,每个阶段都有不同技术路线的大量数据库产品提供服务。这给用户选好、用好数据库,带来了诸多挑战。

一体化:真需求与高门槛
据CCSA TC601大数据技术标准推进委员会《数据库发展研究报告(2023年)》显示,全球范围内,数据库企业共472家,产品数量超500款;我国数据库供应商数量达到150家,产品数量达到238款。用户要从纷繁芜杂的数据库选出适合自己的数据库,要经过多个方面的考虑。
  • 其一,用户需要根项目的具体业务需求(比如数据规模、并发访问量、数据一致性要求、事务处理能力等)、据数据特性(比如结构化、半结构化、非结构化)、数据的增长速度与更新频率,选择合适的数据库类型。
  • 其二,在多个数据库并存、高并发和大数据量的场景下,要确保数据的一致性和可靠性。
  • 其三,数据库要简单、易用、好运维。
  • 其四,数据库要具有较强的扩展性,紧跟云原生、大模型等新兴技术的发展。
  • 其五,在提质增效的大环境下,用户要考虑投入产出比。
因此,让一个数据库具备大部分数据库的能力,可靠、高效解决业务问题,“分久必合”的一体化数据库成为用户的真需求。“一体化”数据库这块肥肉,大家都看在眼里,但能提供真正拿得出手的产品的屈指可数。究其原因,有技术和商业两个方面。
技术上面,“一体化”数据库架构复杂,需要处理多种业务负载,兼容现有的数据库生态,研发门槛高;商业上面,正因为技术难度大,要投入高额的人力物力,所以数据库市场既得利益者,没有彻底改革的动力和决心。

OceanBase 4.3:加强版TP/AP一体化
但我们欣喜地看到,有这样一家企业,自2021年确立一体化数据库战略以来,屡创佳绩,在2022年起连续实现单机分布式一体化、TP/AP一体化、云上云下一体化、多模一体化,用一个数据库满足用户80%的场景需求的基础上,2024年4月20日,其一年一度OceanBase开发者大会登陆上海滩,正式发布OceanBase 4.3版本,推出全新列式存储引擎,打造PB级/秒级实时分析数据库,进一步加强TP/AP一体化。

了解数据库的人都知道,TP(OLTP的简称)是联机事务处理过程,实时性要求高,一般采用行式存储,主要处理日常的事务,记录即时的增、删、改、查,比如在银行的一笔存取款,就是一个事务交易;而AP(OLAP的简称)即联机分析处理过程,是数据仓库的核心部分,实时性要求相对不高,一般采用列式存储,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,比如动态报表系统。
TP、AP两个风马牛不相及的模式,都有独立产品提供服务。但不可避免的,有些企业在强TP场景中有一些AP需求,对此,传统的把二者捏合在一起的方式是HTAP——在TP基础上,提供复杂查询优化、秒级低时延响应、水平线性扩展(千/亿级数据关联查询)能力,这能部分满足企业的AP场景需求。
一开始,OceanBase也是这样做的,但很快发现,随着数字化发展,越来越多企业需要更强的数据实时分析能力,如何在分布式数据库的架构中实现更强的AP性能,成为OceanBase探索的又一命题。OceanBase的解题思路是从AP存储入手,基于LSM-Tree架构推出列式存储引擎,实现可行存、可行列混存和可列存的多种存储方式,同时融入分布式TP核心能力小事务写入技术,有效消除数据导入延迟,满足更严苛的AP实时分析需求。同时,OceanBase推出基于Column数据格式描述的2.0向量化引擎和物化视图,进一步提升了深度AP场景下的性能表现,可实现秒级实时分析,极大提升AP实时分析的能力。
术业有专攻。对于半路出家的OceanBase 4.3的性能表现,大多数人相信还是心存疑虑。是骡子是马,拉出来遛遛。在大会现场,OceanBase 4.3同业内一流的列存大宽表数据库进行了跑分PK。结果显示,在同等硬件条件下,面对大宽表场景,两者的查询性能处于同一水平,而这一查询性能则是衡量数据库AP能力的重要指标之一。据介绍,相较于实时分析数仓,OceanBase在实时分析这一场景上具备实时写入、读写强一致、大规模并行处理、管理运维难度低等优点。

一体化战略底气:需求驱动,100%根自研
之所以能做到这样,在OceanBase CTO杨传辉看来,一方面是基于对用户需求、市场的准确预判,坚定践行“关键业务负载”一体化战略的成果;另一方面,坚持100%根自研数据库,OceanBase 4.3在TP/AP一体化上的进一步突破,也是OceanBase坚持100%根自研的产品力结果。
由原来最早的分布式TP到分布式AP,再到多模以及对AI各种能力的处理,开发者正驱动着OceanBase慢慢成为All-in-one一体化数据库。例如针对TP/AP一体化,OceanBase最开始的设计针对的是TP场景,具备高性价比、高压缩能力,天然适合处理海量数据,针对AP场景并没有特别优势。但开发者在用TP的同时,也试着用了AP,发现性能、成本比专业的AP并没有差很多。这驱动着OceanBase不断加强TP/AP一体化,并在此次专门发布了针对AP的列式存储存储引擎。借助一体化能力,开发者可以在降低IT成本的同时,也让OceanBase变得更加简单。

不基于开源数据库二次开发、自建研发环境和流程,才使OceanBase具备对内核代码的完全掌控力和掌控权,才具备更强的突破复杂业务场景和为关键业务系统兜底的能力。“2024年,OceanBase将重点打造PB级实时分析数据库的最强六边形战士,持续提高TP性能、分布式、兼容性、AP存储、AP计算、AP工具生态能力。未来,PB以下企业在AP应用场景中,无论是HTAP、还是OLAP,都可选择使用OceanBase。”杨传辉表示。
而在Gartner高级研究总监顾星宇看来,当前,数据库正在加速融合,包括但不限于HTAP、多模、向量等。同时,从全球角度来看,市场上缺少一个云中立的能够部署在企业核心系统上的交易型数据库。2023年,以OceanBase为代表的中国新兴数据库厂商得到了Gartner的认可并在云数据库魔力象限被“荣誉提及”,这批数据库厂商的未来可期。
4.3版本只是OceanBase一体化的一小步,放在整个一体化趋势里,更是沧海一粟。但正是这点滴之力的坚持,伴随着AI、大模型的发展,更多的多模、向量一体化将涓滴成河,最终汇成一体化行业的星辰大海。