阿里达摩院数据库四年实战经验分享

发表时间: 2022-09-02 19:38

2017 年的云栖大会,阿里巴巴达摩院宣布成立。


5 大研究方向,16 个实验室,数据库与存储实验室便是达摩院下设实验室之一。


成立伊始,达摩院定位发力硬核基础科技。


前沿数据库技术,就是发力方向之一。


五年时间,社交媒体上每隔一段时间就有人出来问“阿里达摩院搞出来什么成果了?”,“阿里达摩院的技术水平是什么样的?”,“达摩院里面的人平常的 KPI 是什么?”,“什么样的人可以进阿里达摩院?”......

InfoQ 日前对达摩院数据库与存储实验室的三个核心团队的负责人汪晟、谭剑和谢炯进行了集中采访,了解他们在数据库前沿研究的具体工作,以及这些工作对阿里云数据库实力的加持,同时也一窥达摩院的人是如何开展研究工作的。

密态数据管理,重新定义数据要素时代的安全边界


数据有望成为新型生产要素推动社会变革,然而现阶段却面临着巨大挑战。人类社会的演进离不开生产要素的升级:从农业经济时代的土地、劳动力,到工业信息时代的资本、技术。在如今的数字经济时代,全球数据爆炸式增长,大数据、人工智能等技术不断涌现,数据正俨然成为这个时代最核心的生产要素。然而,为使数据真正成为生产要素,我们仍然面临着巨大的挑战:不同于其他生产要素,数据的易复制性、非排他性等特征导致其极易被泄露、难以被限制用途用量,如何在保障数据机密性、隐私性的前提下进行数据的大规模集中管理和跨组织有序流通是数据走向资产化的一大挑战。


“博士期间,我的研究方向是传统的数据库系统内核,与数据安全并没有太多关联。加入达摩院后,我逐渐意识到在云计算、数据互联迅速普及的当下,数据管理与流通中的隐私安全是非常严峻的挑战,会成为数据库系统突破其能力边界的一个重要方向。但具体可以做成什么样子,我脑子里起初也很模糊,只是不停地朝着这个方向探索。”



汪晟于 2018 年加入达摩院,是数据库与存储实验室的第一位专注基础研究的科学家(Research Scientist)。自加入之后,他就开始探索数据库安全可信方向的研究,并带领团队从 0 到 1 完成了全密态数据库技术的研究突破与产品落地,使阿里云成为了全球少数具备全密态数据库管理能力的云厂商。

传统数据库系统的安全体系中已经有很多经典的技术,比如存储落盘加密、访问控制、网络传输加密等。但所有这些技术考虑的情境是:数据库管理着企业内部的数据,数据库服务所在的服务器被放置在企业专属的、物理安全的机房中,数据库与服务器的管理人员是完全被信任的企业内部员工,安全防护措施只需要保证没有权限的外部人员无法访问数据库即可。


但是,数据应用和云计算的出现改变了数据的使用和管理方式,从而颠覆了上述情境。


例如,数据应用业务链路越来越复杂,经常涉及企业自己数据在其他企业的系统中流动(比如电商场景的平台、商家、物流等),不同企业间是不完全信任的;在企业内部,业务团队的数据是由 IT 基础设施团队统一管理的,不同团队间也可能是不完全信任的。也就是说,数据的机密性、完整性、隐私性等问题,这是传统数据库系统在设计时从未考虑过的。


因此,业内也开始将研究重点聚焦在全密态数据库上。


全密态数据库旨在解决数据全生命周期的隐私保护问题,使得系统无论在何种业务场景和环境下,数据在传输、运算以及存储的各个环节始终都处于密文状态。当数据拥有者在客户端完成数据加密并发送给服务端后,在攻击者(包括黑客、超级用户等任何角色)借助系统脆弱点窃取用户数据的状态下仍然无法获得有效的价值信息,从而起到保护数据隐私的作用。


全密态数据库这个概念可追溯至 2011 年 MIT 提出的 CryptDB,该项目不是指某种特定的数据库,而是一种针对加密数据的查询技术,允许用户查询加密后的 SQL 数据库,在不解密数据的情况下返回结果。

CryptDB 使用的是特殊的加密算法,包括保序加密、可检索加密、半同态加密等,但各算法支持的计算操作极为有限,安全强度也各异,难以在复杂的业务场景中使用。此外,全同态加密被誉为密码学领域的圣杯,一旦实现就代表着所有计算都可以在密文上执行,且其安全性也能得到保障,因此受到了学术界的追捧。但其性能非常低,虽然过去几年业内有很多研究机构推出了各种各样的加速方案,但实际效果还是会与其他方案存在数量级上的差距。那么,其他方案具体是指什么呢?


第二种方案是多方安全计算。将数据存放在多个互补共谋的云平台之上,单一云平台上的数据显示为毫无意义的字节串,多个云平台的数据组合在一起才可以计算出想要的结果。其缺点是受到多云架构的制约,与集中化、单一的云平台设计初衷相违背,数据计算过程严重依赖跨云或者跨数据中心的网络交互,信息传输成本极高,难以处理大规模数据。


第三种方案是基于可信硬件(TEE)的方式实现。相较于普通服务器只需要有根用户或超级用户权限就可以访问任何进程中的任何数据内容,可信硬件内部的资源是由硬件机制保证隔离的,即便拥有上述权限也无法访问由可信硬件保护的区域内部。即便攻击者控制了整个服务器也无法窃取其中的数据。这种模式的缺点是十分依赖硬件的能力,且存在侧信道攻击隐患等。目前国际上比较成熟的是英特尔的 SGX 技术,达摩院内部也已经具备自研的 TEE 技术。


汪晟团队对上述三种技术方案均有研究布局,但技术研究和产品落地是两回事,经过多方权衡,团队当前选择了第三种方案进行商业化落地。


“阿里云是全球第三的云计算提供商,支撑着无数企业用户。我们希望研究出来的密态数据管理技术可以适用于任何场景下的任何数据库系统,且在硬件加持下,最终的性能损耗是可以无限趋近于零的。如果针对特别敏感的数据子集,不希望依赖硬件安全,我们可以对这部分数据使用同态加密算法做进一步加固,这自然是建立在牺牲性能的基础上实现的,需要企业自行抉择。”


在 2020 年初,汪晟团队的研究成果已经开始在阿里集团内部业务试运行,2021 年 9 月份,全密态数据库系列产品正式在阿里云对外发布,成为全球第二个全密态数据库云服务。阿里云的几大数据库产品,比如 PolarDB、RDS 均已接入该能力。


从性能指标来看,在事务型(OLTP)场景下,性能可以达到明文数据库的 50% 到 90%,具体性能损耗与实际运行的工作负载有关,这个损耗与业内其他方案相比已经把控得相当优秀了。当然,用户可以在安全与性能之间自行选择向哪一侧倾斜。


从改造视角来看,团队发现实际落地需要考虑的问题不单单是产品技术能力本身,更需要考虑与原有数据库的兼容性、降低迁移成本和提供回迁备案等。基于这些诉求,团队又研发了定制的数据库连接驱动,在业务无感的情况下自动完成数据加解密,无需修改应用侧代码。


“提供数据库内的密态数据管理能力只是个开始,最终企业客户希望得到的一定是覆盖整个数据生命周期全链路的密态数据管理能力。只有做到了这一点,才能真正实现数据要素的资产化和市场化,这是个更具挑战但也更有价值的研究问题。”


汪晟团队的研究不仅停留在数据库系统层面,面向上述数据全生命周期密态管理的问题,他们最新的研究成果已经转化为学术论文发表在了数据库领域顶会 VLDB’2022 上,得到了业界同行的认可。除此之外,他们在防篡改数据存储、隐私增强计算引擎等全方位数据安全技术的研究和产品化上也在进行着持续的探索突破。


在汪晟闷头研究数据库安全可信技术的时候,同处一个实验室的谭剑正在思考数据库到底能不能“自动驾驶”。

AI FOR DB:让数据库实现“自动驾驶”


1970 年代,DBMS 的出现简化了应用开发人员对数据进行统一管理的棘手问题。数据库通过关系型模型和 SQL 声明式语法,为事务、存储、查询、性能等一系列问题提供了一个高效的, 自动的解决方案。这个阶段数据库的优化工作聚焦在数据库内核的若干基础原子能力,例如针对索引, 或分区分表等“点”上的自动优化。


1990 年代,主流的 DB2,Oracle 等数据库推出更加全面的专家自动优化系统,可以在一个更大的决策空间中对不同配置下的系统性能进行估计,用来指导系统的自动优化。虽然在之前“点”上的优化进一步扩大到了“面”,但大多时候仍然高度依赖 DBA 的经验和人的手工操作。


2010 年代,云计算的兴起对数据库自动驾驶的能力提出了更高的, 更直接的要求。在云原生数据库的弹性平台之上,单纯依靠人力已经不可行, 迫切要在更丰富的“体”上, 对多样的数据库形态实现要求更高的“自动驾驶”。其实关于数据库自治的研究早在十几年前就已经在学术界提出,但真正的大规模商用落地则是在云计算成熟之后的近几年。谭剑团队推出的数据库自治产品 DAS, 自成为阿里云产品以来用户数和营收近两年一直保持在 70% 到 80% 以上的快速增长,就是一个直接的证明。



Gartner 报告指出,预计到 2023 年全球 75% 的数据库都会跑在云上, 这与传统数据库的天下发生了本质变化。在这么一个复杂的系统环境中,数据库运行的过程中会出现各种性能问题,概括起来主要分为三类:


一是从可观测的角度,数据库性能指标多,难快速形成对故障的可解释性诊断;从可控制的角度, 难做到对实例的个性化运维。比如,DAS 支持的一个典型头部客户,一个 DBA 管理了数百个数据库实例,性能问题和故障告警很容易淹没在海量的观测数据之中,故障现场也很难捕捉,要做到故障定位和快速精准恢复就更难了。


二是数据库要做到 24 小时永不停歇,持续调优,保持稳定,传统上需要专业的 DBA 来负责,需要丰富的运维经验。但是,对于云上的大规模数据库,由于人力不足或者经验存在差异,并不总能保质保量的解决问题,而这种不确定性在要求很高的商用生产环境中是要尽力避免的, 因为“线上问题无小事”。


三是面对发展的业务对资源需求的动态变化,如何做好容量规划和资源优化, 避免人工频繁干预,降低运维成本,这些都是在云时代的背景下,企业和开发者对自治数据库的实质需求。


从技术层面来看,数据库自治是一系列原子技术的组合,广义上包含两大类:数据库外部运维和内核技术的智能化。外部运维就是最近流行的 AIOps,内核技术则是用 AI 技术提升数据库内核的某些性能。目前学术上对后者有很多前沿研究,比如 MIT 提出过使用深度学习网络代替 B-Tree 做索引, 在一些实例上取得了不错的效果;IBM 使用深度模型做 SQL 执行计划优化等。但是,目前离成熟的、大规模产品落地还有一段距离。


“当前,业界的实现路径呈现‘百家争鸣,百花齐放’的状态。我们采取的策略是‘外围包围内核’, 先从 AIOps 做起,逐步进入内核智能化的领域。不过有时候这两者界限并非那么明显,我们有的产品能力本身属于内核能力的一种外置。例如我们研发的外置 SQL 优化,对 MySQL 等开源数据库特别适用。商用数据库往往都有很成熟的执行器优化,可惜是几个传统头部数据库公司的商业机密。对开源托管类的数据库,往往是欠缺的状态,而我们提供的外置优化可以直接解决客户很多问题。”


数据库自治 DAS 基于全量 SQL 和性能指标的大数据能力,深度融合人工智能和专家经验,可以分成上游的可观测技术,和下游的可控制技术两个系统。上游包括例如异常 SQL 定位,信号异常检测,针对稀疏数据或倾斜分布的高效统计采样, 还有把观测技术的结果按场景进行归类,用来驱动下游的控制。下游技术包括例如 SQL 外置优化,限流,压测,调参,弹性扩缩容,资源调度,SQL 审计等。这是一个复杂的,包含众多原子技术的体系。通过单点技术的原子能力,加上体系上的构建的丰富的产品功能,和阿里云上独有的规模化的服务,三者的结合构成飞轮效应,呈现给用户智能化的数据库自治能力,让用户聚焦在自己的业务创新和发展上。


对自治中可控制技术的部分,数据库可能会通过改变物理设计 / 参数配置 / 物理资源等方式进行自动优化,可能会包含多种不同的优化方式。从这个角度来看, 阿里达摩院研发的数据库自治产品架构,采用了让多种优化服务通过解耦的方式协同满足客户的需求,在具体业务场景中各种服务会呈现不同的自治形态。


一是改变物理设计。例如改变表结构。可能开始 OLTP 表的设计不是特别合理, 如一些需要频繁更新的数据和以读为主基本不变的数据大量放在了一起。这从优化的角度会更多以推荐的形式推送给客户, 因为除非引擎产品直接支持混合事务分析 HTAP,那么改变表结构需要由客户来评估线上的影响, 再决定是否采纳。


二是优化参数配置。这是当前比较热门的研究方向, 数据库有数以百计的性能参数,通过专家经验可以总结出来一些核心的参数。这些可以与智能压测相结合,对参数进行优化。这里往往也涉及到在线变更的操作, 所以需要和数据库领域知识以及业务场景的分析结合起来。


三是对资源的优化。例如自动扩缩容, 一定程度上已经比较成熟, 阿里云数据库多个产品都推出了自动扩缩容的功能。另外一个例子是自动限流,当数据库突然出现 CPU 负载高, 造成响应异常等问题,我们会自动定位到造成问题的 SQL 语句, 对其进行限流, 甚至 kill 等操作, 通过止血来避免对其他任务造成影响。当然了, 这些主动运维的操作都需要客户的事先授权。


基于对不同路径的研究及可落地性的考量,阿里云数据库于 2020 年推出数据库自治产品 DAS,以期实现数据库的“自动驾驶”。采访中,谭剑提到,数据库自治关注的是让数据库不但“可用”, 还要“好用”。终极的目标就是让数据库运维做到无人自动驾驶。提到自动驾驶, 大家就会想到 AI 技术,这在数据库自治上同样适用, 只不过这里的 AI 是更广义的角度,不局限于现在大家比较熟悉的深度学习技术, 还包括传统的控制, 统计, 优化等方法。更重要的是, 这些 AI 技术需要和数据库的领域知识结合起来。


从产品角度,数据库自治提供了自感知、自决策、自恢复、自优化、自安全的能力,保障服务稳定、安全和高效。


从技术角度, 谭剑提到“可以形式化借用编程 class 的语言来描述:DAS 是一个继承了多种数据库引擎内核能力, 实现了 AI 和大数据两个接口的一个子类”。DAS 支持的引擎包括 Redis、PolarDB、MySQL、PostgreSQL、Mongo、SQL Server 等多种内核,在原引擎基础上提供的一种增值能力。这对自建数据库也是一个很好的场景。在此基础之上,DAS 实现了两个接口 :一是 AI 算法,提供智能化决策能力;二是大数据技术,基于用户全量 SQL 的日志数据和性能指标数据,实现感知和审计能力。上述两者之所为称为接口,是因为对不同的数据库引擎有具体的实现差异,不同的业务场景也有不同的产品需求。


“今年以来,系统的可观测性概念火了, 其实从数据库自治的角度, 还有一个对偶的概念叫做可控制性。事实上,二者在控制理论中存在严格的对偶关系。可观测性和可控制性两者的有机结合, 才构成了数据库自治的完整链路。”


这种能力具体到阿里云自研的 PolarDB 数据库上是如何体现的呢?PolarDB 是一个分布式数据库,支持水平和垂直扩缩容。从自动扩缩容 Auto Scaling 的角度,需要考虑是优化只读节点还是写入节点以及两者的关系;从负载的角度,需要进行针对性的优化;从迁移角度,当客户从其他数据库迁库转到 PolarDB 时,为了不影响在线业务和评估容量,可以使用 DAS 提供的智能压测能力,将原有数据库与目标数据库(PolarDB)做一次性能评测和容量评估。DAS 支持不同速度的回放,保障多次回放过程的数据库运行时状态一致,便于客户进行评测,这些都可以对 PolarDB 进行特色支持。


自治能带来一些什么具体的业务价值呢?流利说的基础架构负责人表示:“阿里云数据库的自治使得运维人效大幅提升, 实现团队转型升级”。捷顺的运维总监则表示:“自治大幅降低了数据库故障时间, 提高了系统的可用性。”可见,自治数据库已经在企业中落地并获得了实际的业务价值。


在谭剑团队忙着“落地”数据库自治技术的时候, 谢炯团队正被“空天数据”问题深深吸引。

空天数据库引擎:天地乾坤,万象合一


随着对地观测技术、物联网和数字孪生技术的快速发展,车联网 / 自动驾驶、视觉定位、物流配送等位置服务将随时在、随地在、随身在。与之而来,多维空天数据呈现爆发式增长,给数据存储、处理与分析计算带来极大挑战。在谢炯看来,空天数据有狭义和广义之分。狭义上,空天数据(aerospace data)主要来自天基和空基,例如,基于天基平台的 GNSS(全球导航卫星系统)数据和各类卫星遥感数据等,基于空基平台的倾斜摄影、航拍影像、视频数据等。广义上,则可以将空天数据定义为涵盖 Spatial(空,即地理空间)和 Space(天,即宇宙空间)的地、海、空、天各类与位置相关数据。天问一号携祝融号在火星的登陆为我们传来大量火星遥感影像和空间信息,使大家最直观地感受到来自地球之外的空天大数据。



谢炯在浙大教过本科,在中科院做过研究,也曾经和一群伙伴创过业,一直热衷于数据库技术。2018 年,他选择加入阿里云,这被他认为是人生中很重要的一个选择。


“当时,云计算发展迅速,我认为这代表着未来的演进方向,阿里云在国内做得最早,影响力最大,当时脑海里奔出四个字,“顺势而为”。此外,阿里很擅长将技术转化为产品,不仅内部有高德、菜鸟、本地服务等大量位置服务场景,通过阿里云这个平台能辐射更广阔的行业和客户,这和我做研究是不一样的。”


在他看来,传统的空间数据库(spatial database)主要处理点、线、面等空间几何对象,这类数据体量和结构复杂性相对可控。但现今遥感影像、时空轨迹、倾斜 3D 等大量位置传感型数据面临着数据结构复杂多样难以管理,数据动态变化要求更高维度计算,大数据和大计算场景性能不佳以及智能化需要多模态数据融合管理等一些列难题。这类新型多模态数据无论在存储上,还是计算上,都需要基于云的池化能力和弹性能力,才能在性能、成本、规模化上达到有效平衡。谢炯认为,将空天信息处理融入 PaaS 服务(Platform as Services),以云数据库与存储平台为核心解决空天数据的实时接入、高效存储和弹性计算,是支撑传统时空信息云化架构向纵深发展的必走之路。


在谢炯看来,这种架构演进具体可分解为平台即服务、多模融合、计算下推和云原生四个方向。


1 、平台即服务


是将空天数据处理内置于云上 OLTP 数据库、OLAP 数据仓库、NoSQL 多模数据库等不同系统,相比传统中间件方案在易用性、计算效率和事务一致性处理上存在先天优势。难点在于技术融合之后涉及数据库内核技术、图形图像技术和空天数据专业处理技术的跨学科交叉,这三个方向各自的技术门槛都不低,同时熟悉这三个方向的技术人才则是少之又少。


2、多模融合


是跨结构的多模态数据融合和一体化处理。有两个层次,首先在空天数据层次,不同空天多模态数据有非常大的结构差异和计算方式,只有模型打通,数据结构打通,算法才能真正打通(高效率);其次是泛空天求解,把独立的空天数据处理能力嵌入到时序、图、文本等更多通用模型中,实现时序时空、空间 / 时空图、空间文本等跨界融合,这些不同模型之间数据结构和计算方式差异巨大,融合的挑战自然更大。


3、计算下推


是将空间信息系统业务关键计算下推数据库系统,让计算离数据更近。难点在于生态共建,已有上层的 CIM/BIM/GIS/RS 等涉空间系统都需要升级换代。谢炯谈到,差不多十年之前我就在推动这一架构转型,但面临很多挑战。直到最近几年,大家看到了这一技术架构带来的利好,不少行业厂商和数据库厂商才主动加入这一方向阵营。


4、云原生


新一代空天数据库一定要与云原生能力紧密结合,与公有云结合,并由公有云走向混合云。谢炯团队认为,云服务的本质是算力经济,数据要灵活,算法去补;而算法要灵活,算力去补,即借助足够弹性的算力来保障算法的纯粹性和普适性。公共云厂商在这方面具有独特优势,因为可以把空天计算能力下沉到存储、硬件等更底层次做垂向优化。


Ganos 是在综合以上四个方面基础上,实验室研制推出的首个云原生、跨数据库平台的空天数据库引擎。该引擎已内置于了云关系型数据库 RDS PG、云原生关系型数据库 PolarDB PostgreSQL、云原生数据仓库 AnalyticDB PostgreSQL 和多模数据库 Lindorm 中,将传统空间数据、新型空天数据和其他类型数据实现了多模一体化处理。用户可以按不同数据库产品独立使用,也可以基于产品组合构建空天数据库大数据一体化底座。


谈到 Ganos 与传统空间数据库的区别,谢炯认为主要有三点:


一是云原生,Ganos 从诞生就在云上,充分利用了云原生能力进行设计。


二是专业特性上突出了多维、动态、场景化。多维是既兼容传统 2D,也支持 3D;动态是指时空变化的表达能力,比如移动对象数据库;场景化是指视觉和行为信息处理,比如原生支持各类 3D 建筑的视觉信息处理,共享单车(移动对象)的开锁、闭锁事件描述等。Ganos 分别在 2018 年和 2021 年在业界首个推出了基于云的移动对象数据库和 3D 场景数据库,并在今年的 VLDB 2022 数据库顶会上作了整体介绍,获得了业界同行的认可。而传统空间数据库对多维、动态、场景化仅提供非常有限的支持。


三是跨数据库平台,Ganos 未来的目标是一站式空天 / 时空数据处理平台。


业界对于多模态数据的处理和支持大多处于早期落地阶段,虽然学术届开展了长期、广泛的学术探讨,但真正商品化提供服务的一直未见有成熟系统。空天数据是一类最典型,且应用广泛的多模态数据。早在 2018 年,Ganos 就结合 PolarDB 推出了完全自研的移动对象数据库,并在这几年快速迭代发展。这背后得益于与阿里内部场景的广泛结合,所谓的“母体带动”。 在达摩院,Ganos 在支持包括自动驾驶实验室的小蛮驴,机器智能实验室的 AI Earth,XR 实验室的 3D 空间计算等各类创新场景;同时,Ganos 也在支持包括高德、网商银行大山雀、本地生活等各类位置相关业务场景。据不完全统计,云上 Ganos 引擎被创建次数达到 3 万 6 千多次,目前已广泛应用到航空航天、自然资源、共享出行、灾害应急、交通物流、远程银行、农业 / 海洋 / 水利以及社交 / 健身 /O2O 等总计 45 个不同行业 / 应用方向。天地乾坤,万象合一,这个“一”就是万物在时空中的位置,也正因此,空间计算业已成为数字化浪潮中的关键基础设施。

达摩院眼中云原生数据库的未来


过去几年,达摩院的前沿技术研究与阿里云数据库的产品商业化服务形成相互促进的“飞轮”,前沿技术研究保证了数据库产品技术及时更新换代,带给客户更多价值,同时大规模服务客户遇到的丰富场景推动达摩院不断在前沿技术研究领域获得突破。


这种良性互动的“飞轮效应”体现在阿里云数据库自研产品 PolarDB 等云原生数据库技术创新中:PolarDB 在业内率先实现了一种全新的架构——计算、内存和存储的三层解耦,首次实现内存池化。这种架构创新能够帮助下一代云原生数据库显著提升性能和弹性,大幅降低成本。


在汪晟团队的努力下,阿里云成为全球仅有的两家实现了全加密数据库云服务商业化输出的云厂商之一(另外一家是微软);在谭剑团队的努力下,达摩院丰富的智能算法在数据库领域的深度应用,让 PolarDB 等数据库产品拥有了“自动驾驶”能力,方便客户简便、智能、高效地使用;在谢炯团队的努力下,PolarDB 可以高效管理多维、动态、场景化的空间 / 时空 / 网格数据,更好地支持数字孪生城市等复杂 3D 多模态数据管理场景。


接下来,汪晟、谭剑和谢炯所在的数据库与存储实验室将继续为云原生数据库的未来努力着。


今年初,中国信通院对数据库领域关于智能化数据库、关系型数据库的安全能力,自动运维能力,全密态、防篡改等标准均在起草中,达摩院数据库与存储实验室深入参与了每一个标准的制定。


在全密态数据库的技术层面,汪晟团队接下来将会思考如何做出一个可信密态的数据管理体系,涵盖数据全生命周期的安全性,这是从技术视角要解决的一个问题;在业务价值的层面,团队希望能够将当前的能力进一步标准化,让不同的数据库均可无缝接入到该体系;在生态建设层面,将密态数据推广到数据管理的各个层面,从数据收集到数据处理,再到数据共享等环节都能通过生态化共建的方式进一步完善现有能力。


DAS 目前已经是首批通过信通院数据库管理系统智能化标准的两大厂商之一。而且,该标准和 DAS 目前的产品能力高度一致。未来一年,谭剑所在团队会主要解决如何更好地将自治技术与数据库领域知识结合,用来解决复杂的根因诊断问题,将数据库领域的知识和经验沉淀下来,和 AI 结合让客户真正能够从可解释性的角度更好地运维和优化数据库,并理解其运行状态。除了 AI for DB 的数据库自治,谭剑团队最近也推出了 DB for AI 产品,将 AI 的能力直接构建在 DB 的内核之上,让客户通过数据库直接获得原生的 AI 能力,为其提供价值挖掘能力和解决方案。例如今年 7 月,通过 PolarDB 推出的 Polar for AI 产品,可以对数据库典型场景和客户提供各种 AI 解决方案。


在 Ganos 的未来发展上,谢炯团队会面向云原生和云孪生结合,朝向大规模空天数据一站式管理方向演进。系统层面,向下会从多模态并行查询、扩展存储引擎等方向发力,向上会从算法层面针对轨迹、影像、3D 等新型空天数据实现高性能分析计算,把整体能力做深做精;我们会重点把云和 LBS、数字孪生 / 元宇宙等业务结合,借助数据库产品与行业 ISV 开展更广泛的生态合作,把解决方案做好,实现从技术到产品到产业化应用的快速迭代。

在达摩院做科研是种什么体验


(因本文三位嘉宾均来自数据库与存储实验室,故此处只从他们的视角谈科研体验。)

做研究,拥有自由探索的空间


从数据来看,阿里云数据库团队过去几年在国际顶级会议上发布的论文数量不断创下新高,从 2018 年的 2 篇增长到 2022 年的 15 篇。在刚刚结束的数据库顶会 VLDB2022 上,数据库与存储实验室向 Industrial Track 投稿的五篇论文被全部接收(该 Track 全球共接收 22 篇),这也意味着实验室的相关探索得到了业内的广泛认可。实验室内部对论文的质量审核极其严格,这也是一投即中的重要原因。

从实际感受来看,三位嘉宾认为实验室的整体氛围还是不错的,实验室总负责人李飞飞在对技术方向的把控上十分到位,并会给予大家自由的探索空间,达摩院的品牌效应及阿里内部广泛的落地场景给研究带来了极大优势。


“做研究和做产品不同,团队氛围非常重要,产品商业化之后可以立刻收到市场反馈,但研究有时候没那么快与商业产品相结合,实验室中的资深专家们会及时对大家的工作成果给出评价反馈,让大家更容易认可和强化手头工作的研究价值。”汪晟在采访中表示。

实验室 70% 成员是博士,欢迎交叉学科人才加入


数据库与存储实验室内部有很多相对年轻的成员。“技术的未来需要更多颠覆性创新,因此我们非常欢迎年轻的同学加入进来”。


目前,该实验室 70% 左右的同学都是博士,来自海内外各大名校,研究方向也非常多样化。此外,虽然实验室的定位是数据库,但并不是只接收数据库背景的人才,也欢迎交叉学科的同学加入。


嘉宾介绍:


汪晟,计算机博士,毕业于新加坡国立大学,达摩院数据库与存储实验室系统与安全方向负责人,全面负责下一代云数据库安全可信与隐私计算体系的科学研究和产品落地。研究领域为大规模实用数据管理系统,主要研究兴趣包括云原生数据库系统、隐私与机密计算、云数据库安全、数据分析系统、区块链等,在 SIGMOD/VLDB/ICDE 等数据库与存储领域顶级会议上发表学术论文近 40 篇,获得 IEEE ICDCS 2020 最佳论文奖、ACM MM 2015 最佳论文奖提名。


谭剑,电子与计算机系博士,毕业于美国哥伦比亚大学,阿里云数据库自治服务和达摩院智能数据库方向负责人。曾先后任职 IBM 沃森实验室研究员和俄亥俄州立大学电子工程与计算机系终身制教职。研究兴趣包括分布式计算系统的资源与性能优化,AIOps 系统设计与实现,随机系统的数学建模与算法分析,优化算法的理论与应用。五次获得最佳论文奖,在俄亥俄州立大学曾获美国自然科学基金支持,并在多个著名学术会议中任执行委员会成员。


谢炯,GIS 系统博士,毕业于浙江大学,达摩院数据库与存储实验室空天数据库方向技术研发负责人,CCF 计算机协会数据库专委会委员,中国测绘学会智慧城市专委会委员。近十五年来聚焦多模态数据处理和空间数据库系统研究,感兴趣于三维对象数据库、遥感图像数据库、轨迹大数据处理和 NoSQL 时空分布式系统等领域,研发成果曾获得了科技部国产优秀软件奖、国家科技进步二等奖、中国电子学会科技进步一等奖等奖项。

本文选自《中国卓越技术团队访谈录》(2022 年第三季),本期精选了阿里达摩院数据库、得物、华润云、民生保险、众安保险、字节跳动 AppInfra 等技术团队在技术落地、团队建设方面的实践经验及心得体会。点击即可下载:https://sourl.co/g58F97


《中国卓越技术团队访谈录》是 InfoQ 打造的重磅内容产品,以各个国内优秀企业的 IT 技术团队为线索策划系列采访,希望向外界传递杰出技术团队的做事方法 / 技术实践,让开发者了解他们的知识积累、技术演进、产品锤炼与团队文化等,并从中获得有价值的见解。


访谈录现开放长期报名通道,如果你身处传统企业经历了数字化转型变革,或者正在互联网公司进行创新技术的研发,并希望 InfoQ 可以关注和采访你所在的技术团队,可以添加微信:caifangfang_wechat,请注明来意及公司名称。