18 世纪初,在普鲁士的哥尼斯堡上有一条河,这条河流沿经两个小岛,当地人们建了七座桥把两个岛与河岸联系起来。有个人经过这条河时提出了一个问题:一个步行者怎样才能不重复、不遗漏地一次走完七座桥,最后回到出发点。
问题提出后,很多人对此很感兴趣,纷纷进行试验,但在相当长的时间里,始终未能解决。这就是著名的“哥尼斯堡七桥问题”。
1735 年,有几名大学生写信给当时正在俄罗斯彼得斯堡科学院任职的天才数学家欧拉,请他帮忙解决这一问题。经过一年的研究之后,29 岁的欧拉提交了《哥尼斯堡七桥》论文,圆满解决了这一问题。
欧拉把每一块陆地考虑成一个点,连接两块陆地的桥以线表示。每一次当一个人由一座桥进入一块陆地时,他同时也由另一座桥离开此点。所以每行经一点时,计算为两座桥,从起点离开的线与最后回到始点的线亦计算为两座桥,因此每一个陆地与其他陆地连接的桥数必为偶数。
但七桥所成之图形中,没有一点含有偶数条数,因此上述的任务无法完成。
欧拉把一个实际问题抽象成“图形数学模型”。“图”由节点和边组成,这个节点代表实体,边代表它们之间的关系,由此开创了数学新一分支——图论。
200 多年后,随着计算机技术的发展,图论成为了数学家和计算机学家们解决很多实际问题的底层能力。
放在互联网的场景下,如果把微博用户关系抽象成一个图,账号抽象成图上的点,关注关系则是图上的边。那么,这些图数据就可以很好地描述账号之间的联系,包括描述联系的方向和属性。这种图可能非常大,社交网络账号之间构成的图,它可能是有几亿节点,几百亿边的巨大规模。
利用图形结构描述事物联系的数据建模方式就是图计算。但你可能不知道的是,全世界最快的单机图计算平台、最快的分布式图计算平台来自于一家中国企业。
作为中国最早研究图计算技术的企业之一,蚂蚁集团开发的大规模图计算系统是业内首个在大规模图上提供实时服务的图计算平台,拥有世界规模领先的图数据库集群。
在 2022 世界人工智能大会新一代图智能技术发展与实践论坛上,蚂蚁集团宣布开源其大规模图计算系统中的 TuGraph 图数据库单机版。
这是蚂蚁集团图计算技术一个非常重要的里程碑。TuGraph 单机版的开源也为推动中国乃至全球的图计算规模化和商业化应用奠定了重要的基础。
图计算,大型科技公司逐浪的“新风口”
图计算是一种能够研究客观世界当中任何事物和事物之间关系,并对其进行完整的刻画、计算和分析的技术。
在 Gartner 发布的《2021 年十大数据和分析技术趋势》报告中显示,自 2018 年 10 月至 2020 年 10 月,Gartner 有关图计算技术领域的查询量和兴趣增长了 280%。Gartner 认为,通过图计算分析和洞察数据之间的关联关系能够提高社会运行效率,成为大数据与 AI 领域下一个战略制高点。
在数据库流行度排行榜网站 DB-Engines 上也可以看到,近 10 年来,人们对于图数据库的关注度,在过去十年内比其他的数据库都要高。
相比关系数据库,图形数据库是 NoSQL(非关系型)数据库中的一种,是表示和查询连接数据的最佳方式。
而相对其他非关系型数据库,采用的数据结构和分布式架构,适合离散、关联关系弱的数据存储管理。图数据库可以实现更好、更快地查询和分析,更简化地数据建模,由点及面地挖掘知识体系,面向对象的思维,以及更强大的问题解决能力等。
最常见例子就是社会网络中人与人之间的关系,传统数据库效果并不好,查询复杂、缓慢、超出预期,而图形数据库的设计恰恰弥补了这一缺陷。
目前,图数据库主要适应的场景需求有两类:一是对时间有要求,希望快速分析并得到结果的场景;二是对分析深度有要求的场景,如一些区块链金融客户希望对数字货币交易可追踪不只深入到几十步,而是上百步甚至上千步。
根据 CB Insights 预计,到 2027 年,图数据库市场将以 17.7% 的复合年增长率增长,达到 46 亿美元。
全球主要研究图计算的厂商,包括了许多大型科技公司,亚马逊和谷歌是最早推出了自己的图数据库的大厂,随后,微软、IBM、Twitter、Facebook 等也开始采用图数据库。
另外,一些初创公司也在跟随,如 Neo Technology 开发了主流图数据库 Neo4j,以及 TigerGraph 等初创公司等。
而中国,近几年图数据库市场已经引起了一定的关注。首先是互联网厂商已经开始推出自研的图数据库,初创公司在后跟随,并出现了原生图数据库领域的初创企业。
比如蚂蚁集团的 TuGraph,阿里云图数据库 GDB,百度的 BGraph 和 HugeGraph 等。还有初创公司费马科技的 LightGraph,这家公司成立于 2016 年,由多位清华大学博士创立,在 2020 年与蚂蚁集团图计算系统整合,发展成为了蚂蚁集团大规模图计算系统。
这些全球知名的大型科技公司正在大力投入图计算研发创新,显而易见是看到了图计算对未来业务驱动的巨大潜力。
实际上,Gartner 也预测过,到 2025 年,图技术将应用于 80% 的数据和分析创新,能够促进企业的快速决策。因为图计算链接着所有数据,它们构成了许多现代数据分析的基石。通过对分析数据和人工智能数据的高效管理,包括对图结构的分析,能够为过于复杂而难以解决的传统业务难题提供解决方案。
目前图计算已被应用于金融安全、互联网、工业、生物医药、公共安全、智慧城市等多个领域,成为全球研发机构、新兴创业公司,以及大型科技公司逐浪的“新风口”。
蚂蚁的尝试、探索和创新
中国企业对图计算的研发应用要从 2015 年左右开始说起。
那一年,蚂蚁集团开始组建自己的图数据库团队。蚂蚁研究图计算的初衷源于其业务的驱动。
在一个典型的金融场景模型中,有着多种不同类型的关系,形成了数十亿的结点和边,有些是相对静态的,如企业之间的股权关系、个人客户之间的亲属关系,有些则是不断地在动态变化,如转账关系、贸易关系等。这些静态或者动态的关系背后,隐藏着许多未知风险,比如金融信贷风险等。
过去,风险分析通常都是从个体(如企业、个人、账户等)本身的角度出发,去分析个体与个体之间的差异,很少从个体之间的关联关系角度去分析。
而图计算和基于图的认知分析正是能够弥补传统分析技术的不足,它可以完整刻画企业客户之间、企业与自然人之间的社会关系、经济往来关系,由此构建全方位的风险关联网络。
基于对金融模型的图数据分析,2016 年蚂蚁集团发布自研图数据库版本 GeaBase,并接入支付宝,正式投入应用。在 2018 年双十一,图计算真正证明了自己的价值。在大促极端流量高峰情况下,图计算动态识别了超过六度关系链、隐蔽性较强的异常资金风险,显著提高了支付宝的风控能力。
在蚂蚁发布 GeaBase 的同一年,由清华大学计算机系教授陈文光带领的清华师生团队成立了费马科技。并在一年后开发出了自己的图数据库产品 LightGraph,支持完整的图数据库事务和企业级的高效图数据存储、查询。
到了 2020 年,费马科技就成为了中国第一家通过图数据库国际标准基准测试程序 LDBC-SNB 官方审计测试的企业,研发实力强硬,发展非常迅速。
但不管怎么样,费马科技还是一家以学术研发驱动为主的创业团队,他们对技术如何大规模投入到真实的应用场景当中仍然缺乏抓手。
在陈文光看来,图计算要想真正发展起来,需要技术加场景的双轮驱动,才能实现从“有人用”到“大规模使用”。
而对于当时的蚂蚁集团来说,其图计算团队更偏向于业务驱动,也就是业务有什么需求就去做什么需求。
费马科技联合创始人、现蚂蚁集团图数据库负责人洪春涛博士介绍道,这种由需求带来的产品设计逻辑有优有劣。优点是业务要求的产品性能较高,比如支付宝业务要求实时在线,不能有任何的中断,那么图数据库就要有非常高的稳定性和吞吐率。此外,业务对数据查询延迟时间也有限制,比如发一个请求到服务器反馈时间要在 20 毫秒之内等。这些都是由真实业务中锻炼出来的性能要求。
但这也在另一方面上导致了产品架构缺乏标准化,可能某种功能临时满足了业务上线的需求,但对于产品架构来说却不一定是最优的解决方案。
如何从长远的角度来把握图计算未来的设计方向,是蚂蚁集团要静下心来思考的核心问题。
在这样的业务痛点下,蚂蚁意识到如果能与学术界科研实力打通并形成合力,将能更深度拓展图计算的潜力,而蚂蚁的实际应用场景又能不断对图计算技术进行训练升级。
2020 年,蚂蚁集团正式将自有图计算技术系统 GeaBase 与费马科技的产品和技术进行整合,随后升级形成了一套完整的图计算系统,并正式更名为 TuGraph。
这套系统集成了蚂蚁集团以及清华大学原有优势,无论从功能的完整性,吞吐率、响应时间等技术指标,还是应用领域,都达到了世界领先水平。2020 年, TuGraph 成为图数据库基准性能测试 LDBC-SNB 世界纪录保持者,性能领先第二名 7.6 倍,并获得了 2021“世界互联网领先科技成果” 奖。
随着 TuGraph 在技术上不断精进,2022 年 8 月,TuGraph 在最新一次的 LDBC-SNB 测试中,再一次打破世界纪录,吞吐率较上一次官方纪录提升了 52%,也超过了两年前由自身保持的世界纪录 1 倍以上,再次体现了 TuGraph 高并发低延迟的强大性能优势。
图计算“开源”,它会改变什么?
图计算对于数字化时代大规模、复杂的数据处理来说十分关键。经过 7 年多研究和探讨,蚂蚁图计算技术已经具备业界领先的技术能力和非常丰富的应用经验。
以企业担保场景为例,比如金融机构要给一个企业 A 贷款,这个企业找 B 企业担保,然后 B 企业找了 C 企业担保,但 C 又找 A 担保过,最后发现他们形成了一个环。那么这个担保等于是无效的,因为一层一层地下来,它回到了最初的这个公司。这可以都把它抽象成在图上找环的问题。
过去有些银行用 MapReduce 大数据处理的方法,但在企业担保场景里,大概只能找到长度为 6 的环,更长的环就找不到了。又比如像套现分析的场景,不仅是需要找环,而且速度还要非常快。因为用户去刷一个信用卡,肯定不希望后台算上两个小时才说有风险。
利用图计算系统,就可以在金融的场景中实现实时地找到最完整的路径。比如在蚂蚁的数字支付、数字服务、数字金融等核心业务中,利用图技术就可以显著提升风险行为的实时识别和调查分析效率。根据蚂蚁的数据显示,基于图数据库,支撑支付宝的重要风险识别能力提升了近 10 倍,风险审理分析效率提升 90%。
蚂蚁已经在复杂的用户交易行为中印证了大规模图计算的高效性能。秉承“成熟一个开放一个”的理念,蚂蚁希望图计算技术也能够走入更多大众的视野。
TuGraph 单机版开源主要是开放其图数据库的工具和技术性能,解决图谱应用项目中图数据库成本过高,易用性差,性能低下的问题。实际上,大量的应用场景下用户更关心成本、性能和易用性。TuGraph 能够实现单机部署,使用成本更低,并且性能优秀、通用易学。
但此次开源的更关键意义,在于蚂蚁希望通过开源去拓展图计算应用的生态,来带动整个市场发展。
在洪春涛博士看来,图计算的应用要经历三个阶段。
第一个阶段是解决传统大数据分析没法做的事情。比如金融反套现,常规的大数据手段很难快速地找到异常的套现环路,但图数据库能够做到实时监控。许多企业的图计算应用都处于这一阶段。
第二个阶段是有些场景既需要传统大数据分析,又需要图数据库查询。大部分企业的做法是使用关系数据库和图数据库分别操作分析,但如果图数据库做得足够好,实际上只需要一个图数据库,即一个系统就能够满足以上需求。这对于用户而言是一个更加简洁的工具。目前蚂蚁则处于这个阶段。
第三个阶段则是对传统关系数据库的替代。图数据库的数据抽象比关系数据抽象更贴近自然和符合人类直觉,因此图数据库是比关系数据库更容易理解的。长远来讲,这种表达上的便利性会让人们倾向于使用图数据库来解决问题,从而使图数据库替代关系数据库成为一种主流。这是一种思维方式上的改变。
“这是图数据库从一个配角走到主角的过程,它要取代原来已经很成熟的数据库系统,那么就意味着它要建造一个更成熟、更稳定的技术和商业生态。”洪春涛说。
生态不仅需要囊括图计算产业链上下游,更应该覆盖各种各样的行业领域。
技术开源后,对图计算的学术研究也具备重要的意义。
一方面,开源的数据库工具能够提供给学术界继续作为技术研究的基础,让研究人员在 TuGraph 代码的基础上更便捷地做自己的研究创新。
另一方面,让越来越多的生态和业务场景参与进来后,也有助于反哺技术的改进升级。
蚂蚁技术研究院图计算实验室研究员朱晓伟博士介绍说,最开始做图计算方面学术研究的时候,发现大部分分布式图计算系统的论文认为通信是技术的瓶颈,所以主要研究如何让网络通信尽可能快。深入探索之后,我们发现很多工作过于侧重“通信”的优化,而忽略了“计算”部分因此引入的开销,反倒没有达到想要的效果。尤其随着网络条件越来越好,我们应该把重心放回“计算”上,优化的目标从“通信”为中心变成“计算”为中心,这是我们当时做的这个研究工作输出的核心观点,也是我们的产品能够取得相比之前系统很大幅度提升的关键。但后来当我们试图把它变成一个商业化产品来打磨的时候,发现“计算”也不一定是最关键的事情。比如在双十一大流量冲击的情况下,服务器的内存就变得更为重要,必须要保证整个计算过程在足够的内存下跑起来,不能断掉。这就从“计算”为中心变成以“空间或者成本”为中心。
把学术原型系统产品化的过程,除了不断改进计算性能,更重要的是如何通过业务场景的反馈将产品做得更加实用,由此更好地驱动业务发展。
在蚂蚁的业务板块中,目前图计算的应用不仅在金融上,在复杂电网的故障分析,电商产品的智能推荐,疫情期间的密接、次密接以及时空伴随者发现都有重要的应用,包括大家日常生活中在蚂蚁森林偷能量,现在也是用图数据库来管理。
实际上,不管是人们的日常生活,还是新兴产业发展,如今都离不开高性能计算,比如天气预报、新药研发、新型材料、安全系数更高的汽车、高铁和飞机等都需要高性能计算作支撑。图计算作为一个高维的数据结构,能够更好地挖掘数据之间的关联特性,为行业提供精准高效的决策。
所以,蚂蚁期待通过 TuGraph 开源把这套技术共享到更多行业。在蚂蚁看来,只有当大家都参与到图计算当中,才能够一起把整个生态做好,从而让图计算技术的商业化真正滚动起来。