阿里云开源PilotScope技术,数据库即将进入AI时代

发表时间: 2023-12-20 12:53

来源 | 新言科技

| 贾宁宇



12月20日,数据库国际顶会VLDB2024公布新一批论文,阿里云新技术PilotScope成功入围,该平台技术可实现AI算法在数据库的“一键部署”,极大降低数据库中AI算法的应用门槛,为数据库智能化开辟了全新道路。


同日,阿里云宣布将PilotScope全部技术免费开源。


数据库智能化为何难?


数据库是事关国计民生的基础软件技术,数据库技术的更新影响着数字时代的千行百业,其中一个前沿领域即是数据库智能化(AI4DB,AI for Database)。


现在的数据库系统非常复杂,对稳定性要求极高,即便将单一AI算法与单一数据库作匹配调试,也需要双方工程师紧密配合数周甚至数月,效率低、效果差。



更常见的情况是,AI工程师不懂数据库细节,数据库开发者用不明白AI,两个领域连编程语言都不通(AI开发多用Python,数据库多是C/Java),很容易造成割裂。


通常来说,工业界公司会选择直接在数据库中直接嵌入一些AI算法,以替换数据库的某些功能模块,比如做好一个更加智能的查询优化模块。但这种定制化的方法开发、维护、升级的成本很高。每一次AI算法的升级和汰换,都需要重新做一遍开发流程。同时,改动数据库的代码库也会给其带来额外的风险。


也正因此,虽然AI发展日新月异,但在数据库领域中,相关成果的落地仍方兴未艾。


有没有一种通用的平台技术,能更好地将AI算法更高效地落地进数据库?


这成为阿里PilotScope项目团队思考的起点。


“AI4DB,AI和DB两端都有人做,但是这个连接处的桥,却一直没做好。我们想要为AI算法和数据库之间搭一座公共的桥,使得双方的沟通更加顺畅。”PilotScope项目负责人朱鎔介绍说。


从0到1的交叉技术创新


朱鎔把PilotScope形容为数据库AI“超级管理员”,通过PilotScope平台,AI工程师只需专注于设计通用的AI算法,可实现对不同数据库的部署和应用;而数据库使用者可像调用API那样,方便又高效地用上AI。


这一想法,从构思到落地,花了约2年时间。“里面涉及到算法和系统的交叉、AI和数据库的交叉、研究和开发的交叉、学界和业界的交叉,是真正的交叉技术。”朱鎔说。


据他介绍,项目团队通过在数据库和AI系统级抽象和通用化模块及接口定义,几番打磨,最终研发出一个全新的中间件系统平台,让AI算法在数小时乃至数分钟内在数据库内实现“一键部署”,也就是现在的PilotScope。


图注:阿里云PilotScope架构图。



PilotScope针对参数调优、索引推荐、基数估计、查询优化等数据库主流任务,预置了10多种AI算法,并完成PostgreSQL和Spark等两大主流开源数据库的适配打样。


实验数据显示,使用PilotScope将AI算法嵌入数据库,较传统“硬植入”方法,查询优化等任务提速1到2倍不等,且PilotScope本身对部署产生的额外代价基本可忽略,表现突出。


图注:PilotScope效果图。



同时,PilotScope对数据库“微侵入”,并设计了智能检测、回退、隔离等机制,降低AI幻觉风险,在确保数据库稳定性的前提下实现智能化提升。


朱鎔介绍说,此前,AI工程师和数据库开发者要不断配合打磨,数周甚至数个月都不一定能搞稳定,“借助我们的PilotScope,几个小时甚至几十分钟,就能直接上线测试了。这个从0到1 的技术创新,让开发的效率大大提高了”。


开源撬动AI4DB产业化进程


目前,PilotScope论文成果已被VLDB收录。VLDB评议认为,PilotScope基于应用场景开创性的系统设计,将开启数据库智能化的全新方向。


据了解,VLDB是数据库三大国际顶级会议之一,每年仅收录在学术界和产业实践中产生重要影响的新成果,是权威的数据库技术风向标,第50届VLDB大会预计于2024年8月在中国广州举办。


图注:数据库顶会VLDB2024。



朱鎔介绍说,PilotScope相关技术已通过GitHub及Modelscope魔搭社区对外免费开源,团队希望借助开源社区的力量,让更多的AI算法和更广泛的数据库纳入到PilotScope中来,与开发者一同探索更多的AI4DB创新。


同时,PilotScope已在阿里云内部展开试点应用,为产业化部署作相应测试。


“AI4DB要落在真实生产环境才产生价值,我们希望PilotScope能真正做到这点,帮助千行百业的数据库实现智能化的效率和效果升级。”朱鎔说。


附开源地址:

https://github.com/alibaba/pilotscope