蚂蚁集团推出PB级实时数据分析仓库

发表时间: 2024-04-20 19:16

·OceanBase 4.3推出列式存储引擎,构建PB级实时分析数据库,可实现秒级实时分析,进一步加强TP(事务处理)/AP(分析处理)一体化。

数据库是基础设施的基础设施,是存放数据的仓库。4月20日,在第二届OceanBase开发者大会上,蚂蚁集团原生分布式数据库OceanBase 4.3发布。该版本推出列式存储引擎,构建PB级实时分析数据库,可实现秒级实时分析,进一步加强TP(事务处理)/AP(分析处理)一体化。

OceanBase首席科学家阳振坤表示,数据库尤其是事务处理的数据库需要大量业务长时间打磨才能做起来,但没有多少业务愿意做数据库的“小白鼠”,这使得数据库的成长非常艰难。从上世纪80年代商业数据库诞生到今天,主流数据库仍是一个手都数得过来。

“上世纪80年代的商业数据库和数据库产业一起成长起来。到了上世纪90年代,一些人觉得商业数据库太贵了,他们希望做一些大家都用得起的数据库,所以就出现了两个开源数据库。这两个开源数据库在市场上经过长时间广泛使用,从边缘到中心成长起来。再之后,就没有数据库长出来了。”但阳振坤表示,互联网带来了挑战也带来了希望,“因为有新需求,有大量并发,有海量数据,还有对数据库性价比更高的要求。”

2022年发布的OceanBase 4.0是一款100%根自研数据库,从技术上首次突破分布式数据库的单机性能瓶颈,实现单机分布式一体化。目前在一体化上,OceanBase已实现单机分布式一体化、TP/AP一体化、云上云下一体化、多模一体化等,用一个数据库满足客户80%的场景需求。

此前,面向企业在强OLTP(在线事务处理)场景中的AP需求,OceanBase构建了混合事务和实时分析处理(HTAP)能力,在OLTP基础上提供复杂查询优化、秒级低时延响应、水平线性扩展(千/亿级数据关联查询)能力,部分满足了企业的AP场景需求。但随着数字化发展,越来越多企业需要更强的数据实时分析能力,在分布式数据库的架构中实现更强的AP性能成为新的探索命题。

OceanBase 4.3从AP存储入手,推出列式存储引擎,实现可行存、可行列混存和可列存的多种存储方式,同时融入分布式TP核心能力小事务写入技术,有效消除数据导入延迟,满足更严苛的AP实时分析需求。同时推出基于Column数据格式描述的2.0向量化引擎和物化视图,进一步提升深度AP场景下的性能表现,可实现秒级实时分析,极大提升OLAP(在线分析处理)实时分析的能力。

目前,OceanBase已服务超过1000家行业客户,其中30%将其应用于核心系统。例如海底捞将OceanBase应用于会员系统,既做事务处理又进行实时分析,为每位会员推荐定制化内容,实时分析算力提升30%,数据库成本下降35%,更从容应对节假日流量高峰。