2012 年,TigerGraph 在硅谷成立,由华人科学家许昱博士创立,深耕大数据图分析领域。在默默耕耘 6 年之后,2017 年 11 月 8 日,TigerGraph 的下一代图数据库在美国正式发布,在市场上引起了轩然大波,这家公司也一跃成为了受人关注的明星。
随着人工智能技术的发展,市场对于性能的要求越来越高,然而光靠硬件的升级已经无法完全满足使用者的需求,配套的软件产品如果跟不上发展,效率也无法达到要求。图数据库的出现,在很大程度上解决了性能的问题。
或许对有些读者来说,这还是一个新的概念,我们专门对 TigerGraph 中国区总经理乌明捷进行了独家专访,除了为我们科普图数据库的基础概念外,他还从市场、技术等层面全面解读了图数据库的应用场景和发展未来。
以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。
InfoQ:感谢老师参加 AICon2018 的采访,首先请您做下自我介绍,然后简单介绍下您所在的公司及创始人的基本情况。
乌明捷:我是 TigerGraph 负责中国区的总经理乌明捷,TigerGraph 是个年轻的公司。我们总部是在硅谷,创立于 2012 年,创始人许昱是华裔的科学家。他曾经在推特等业界知名的大公司工作过。
他参与过前沿技术的研究与收购,在工作过程当中,他看到了接下来十年的非常大的技术趋势,图数据库应用将会有非常普遍的应用的机会。通过了解市面上现有的开源的工具,他觉得有机会去做这样的事情。另外在一个非常偶然的机会,我们也找到了高性能图计算的专家。
我们创始人有个概念,也是我们团队非常认同的一个价值观:图数据库是新兴的技术,速度和支持数据规模是它的核心价值,如果图数据库不够快,新的技术是不会替代旧的技术。在整个公司的发展过程当中,我们对于性能的追求,对于满足工业界应用的追求,始终没有停止,其过程也是非常的艰苦。我们公司是 2017 年才正式发布产品,在此之前,我们整整做了 5 年的开发。这个过程确实是一个非常难的过程,因为我们从事的领域是底层技术的部分,非常艰苦,很少人去做。5 年的时间,很庆幸的是我们能走到今天这个程度,现在的产品也成熟了。
InfoQ:能否请您为我们普及一下图数据库的概念?先来谈谈什么是图数据库?
乌明捷:首先,图数据库不是存储图像的数据库,那个是 Image 数据库。图数据库和传统的关系数据库比较,就是图和表的差别。图数据库是用点和边来表达数据之间的关系,是更自然的存储方式,更专注于对象之间的关联。传统的关系型数据库,可能是在记录交易的场景更有优势,在应用发展的某一个阶段更容易让人学习和使用。
现在,我们讲社交关系是一种图,我们买东西、交易是一种图,资金是一种图,包括现在的知识也是一种图,图数据库是在知识图谱底层的一个基础设施,它把数据用图、用点和边的方式存储起来。
InfoQ:从您的角度看来,研发人员为什么需要图数据库呢?与传统数据库相比,图数据库有哪些方面的优势、特点?可以举例来说明。
乌明捷:研发人员用图数据库最简单的一个原因就是性能。大数据时代,数据量非常大,大家收集的数据非常多,我拿到数据不代表我能利用数据,真正利用数据是获取现有数据中分析产生业务价值。研发人员现在转向图数据库很大的原因是:我有大数据平台,但是我的查询很慢,看上去靠硬件已经不再能产生质的变化,这个时候技术人员想到的是:我是不是有个新的方法解决这个问题?图天生关注对象和对象之间的关系的,当你去做深度搜索的时候,它就会带来一个特别大的优势。
我觉得还有一个原因就是大家现在在业务场景当中去关注关系,发现隐藏的关系,这个在传统的数据库里很难做到,比如给到你两个人,问这两个人是不是有关联。传统的数据库是:查询的条件是通过看手机,还是看地址,你得告诉我,不然的话没法查。在图上面的话,它的模型就非常容易理解,我查的是这两个点之间有没有路走的通,只要能够走的通,不管是手机还是地址,都是有关联的。这是图天生的一些优势。
InfoQ:根据您目前的经验,图数据库的目前发展情况到了怎样的程度?在程序员群体中的普及度如何?
乌明捷:这个问题分两个情况来讲。现在在硅谷,在海外,图的应用已经有一个共识:它可能是接下来十年的大数据智能信息查询的一个大趋势;在中国,我们看到越来越多的公司开始关注这个事情,今年下半年,特别是百度、阿里他们有推出自己的图数据库,从 TigerGraph 的角度来讲,我们非常高兴的是有更多公司开始去做这个事情,大家一起把这个市场唤醒。现在越来越多的人来咨询我们,大家现在都在探索应用的场景,希望真正能够产生业务价值,有一些先行的客户,已经在这个事情上获得了非常好的回报,我们看到后来他们就在图上面投入非常多。
InfoQ:请您介绍一下 TigerGraph 公司的团队当初是怎么样的原因接触到图数据库,后来选择研究这一技术的动力是什么呢?
乌明捷:我们前面有谈过,因为创始人本身是做大数据的,他很早就看到了大数据在发展到一定阶段的时候,信息获取不再是困难,而是已有的数据里面,提取需要的部分越来越困难,这个时候靠硬件已经不再能解决问题,他看到了这个场景;第二个,我们的创始人一直是在工业界,他在工业界的经验非常丰富,我们看到市场上有一个非常大的缺口,没有人去认真的研究这个事,所以我们花了很长的时间去做这件事。
InfoQ:在您看来,图数据库与人工智能技术的结合点在哪里?它的出现解决了人工智能数据方面的哪些痛点?
乌明捷:人工智能是个很大的话题,我想把我们这个问题就再往小稍微限制一下,因为人工智能包含的概念很多,包括图像识别,智能机器人,这些是另外一个领域的部分。我们可能比较关注的部分是和机器学习、商品的实时推荐以及实时行为的解读,这一部分是能够通过数据获取来进行分析的。
因为机器学习非常依赖于特征,所以我们认为在机器学习和实时推荐的这个角度,我们可以提供两个东西:第一,在图上面的话,我们是无差别的去提取特征的,在计算之前,你不需要告诉我,我要往哪个特征方向去走,这就是前面讲到图的特性,因为对我来讲都是一样的点,只是不同的类型关系而已,对图来讲,我们可以对所有的特征进行关联,没有好的特征坏的特征,所有的能关联起来就是特征。
第二,因为我们能够做到实时的计算,在演讲的时候,我分享了一个案例,我们把传统的静态的特征,通过一度联系人、两度的联系人,把它的特征提升一个量级,我们把 20 个特征提升到了 122 个特征,这个是最终我们固定下来有用的特征。有一个理论叫做六度理论,就是世界上任何两个人通过六个人的关系就能够关联起来,当数据能够从它的一度联系人开始,每多走一步,我们获得到的特征相关的信息是指数级增长,这些增长的信息,带给机器学习的丰富性和准确性会有质的提升,这个在我们的很多案例里得到了体现。
InfoQ: TigerGraph 的图数据库有哪些优势和特点?与同类产品相比有什么区别?
乌明捷:我们前面也聊到了,我们非常强调性能,所以我们给自己了一个定义:我们是一个分布式的实时大图。
解释三个概念:第一个我们是分布式的,我们要能支持大数据量级,需要能满足现在大数据时代规模的支撑;第二个我们是实时的,我们的数据可以实时更新,然后通过分布式的技术,我们希望最终提供的查询在秒级返回;最后我们因为用了 G-SQL 的开发语言,让技术人员快速学习并发挥优势。同时我们开源了自己的 G-SQL 算法库,希望可以让这个学习过程变得更加容易。
我们看到了市面上很多开源的图数据库还有传统关系型数据库的特征来描述事件,而我们从最开始的时候,就是按照图论的方式研发,是完全从图的结构去适应的这样一个系统,如果去试着用一下我们的系统,刚开始大家上手有点陌生感,但是用了一段时间之后,对图理解越深的人会把这个技术用的越好。
InfoQ:前不久,纽约大学、纽约大学上海分校、AWS 共同开源了一个面向图神经网络及图机器学习的全新框架,命名为 Deep Graph Library(DGL),您如何评价这一框架?它的出现对于图数据库与 AI 的研究带来了哪些影响?
乌明捷:有关 DGL 我们也去做了一点功课。DGL 是一个面向专用分析领域,或者某个特定方向的实时查询与高性能模型,和我们现在从事的领域有所区别。工业界的图数据库,我们追求的方向是一个通用,一个基础性的模式,现在他们推出的这个模型,我们打个比方,像 AI 推出的芯片,它会在某一类的应用当中做尽可能的多的优化,但是不会考虑作为一个基础软件用在所有的方向里。
InfoQ:关于图数据库一直有一个争论:图数据库是否比关系型数据库更加先进?您对于这一争论的看法是怎样的?
乌明捷:只是从技术和学术角度来讲,图数据库是关系型数据库的一个超级;从工业角度、实用角度来说,现有的关系型数据库已经发展的非常成熟了,对用户来说有一个非常大的挑战是迁移的成本,我认为现在成熟的应用和应用场景,它已经达到足够的业务场景的需要的情况下,客户是不会轻易的去做这个变换,但是在未来的十年里面,在大数据、机器学习、AI 场景当中,关系型数据库会有瓶颈,这个时候大家会考虑图的新的图的应用场景,我认为新的图的应用场景会更多一点。
InfoQ:有关图数据库未来的发展,您有怎样的期望?
乌明捷:开源的图数据库,我觉得会走向稳定,会应用在一些成熟的应用场景,比如说数据不必频繁更新,我的查询是可以等待的一个场景下,这个技术会逐渐稳定下来,适用的人群会很多。
现在的业界在高速发展,有很多研发的量投入在实时处理或者超大数据量级上面,我们现在还在推进我们更极限的性能,因为实际使用场景中,特别在现在的中国市场,大数据规模是非常惊人的。
我们在实际的场景里面看到,现在的系统还是有边界的,我们在探索真正超过这个边界的极限在哪里,在保证实时的情况下,现在业界的一些大的厂商研发的方向都在往这个方向去。我们看到了金融应用、电商的应用,他们对于时间,对于响应速度,对于数据规模都有非常严格的要求,这个部分的前沿性,不光是在国内,整个在业界,在全球范围之内都是现在非常热的东西。