AI问鼎诺贝尔化学奖:DeepMind创始人蛋白质结构预测成就辉煌

发表时间: 2024-10-09 19:32

编辑:编辑部

【新智元导读】谁能想到,昨天的故事又重演了。2024诺贝尔化学奖,颁给了DeepMind的Demis Hassabis和John M. Jumper和华盛顿大学的David Baker。就在2023年,Hassabis和Jumper获得了「诺奖风向标」拉斯克大奖,今天果然灵验了。


就在刚刚,2024诺贝尔化学奖揭晓。

今年的奖项,一半授予美国华盛顿大学的David Baker,以表彰其在计算蛋白质设计方面的贡献。

另一半则授予DeppMind的Demis Hassabis和John M. Jumper,以表彰其在蛋白质结构预测方面的贡献。

他们三位都致力于AI蛋白质的研究。

没错,万物皆可AI,今年的诺奖是妥妥的AI年

根据委员会的官方公告,今年的诺贝尔化学奖聚焦蛋白质。

David Baker成功完成了几乎不可能的惊人成就:构建全新种类的蛋白质。

而Demis Hassabis和John Jumper则在2020年开发了AlphaFold 2,解决了人类50年来的梦想:预测蛋白质的复杂结构。

我们现在能够预测蛋白质结构并设计自己的蛋白质,这一突破为人类带来了巨大的益处,开启了无限可能。

没想到,我们曾经的预言成真了。

补充阅读:预定诺奖?DeepMind创始人斩获「诺奖风向标」拉斯克奖,AlphaFold成「AI for Science」标杆

拉斯克大奖再次证明了自己「获奖风向标」的地位。

Hassabis也度过了传奇的一天:白天祝福好朋友得诺奖,晚上自己亲自得诺奖。

纽约大学助理教授谢赛宁回忆称,在DeepMind实习期间,Hassabis被问及公司目标时,便提到了获得多个诺贝尔奖。

而如今,这个使命已经实现了一部分。

Demis Hassabis


Demis Hassabis 1976年出生于英国。

4岁起,他就是国际象棋神通,在13岁时达到了大师标准。

1997年,他以双第一的成绩毕业于剑桥大学,在伦敦大学学院完成了认知神经科学博士学位,又在MIT和哈佛攻读博士后。

2010年,他和Shane Legg共同创办DeepMind,担任CEO。

2023年,DeepMind和谷歌大脑合并后,Hassabis担任谷歌DeepMind团队CEO。

关于DeepMind的诞生还有一段传奇故事:作为14岁以下世界上排名第二的象棋选手,Hassabis在一次聚会上成功征服了Peter Thiel,获得了225万美元风投,成立了DeepMind。

补充阅读:OpenAI工程师曝出开发ChatGPT只用8天!长文揭秘谷歌DeepMind等硅谷顶流如何诞生

John M. Jumper


John Jumper是DeepMind的美国高级研究科学家。

2017年,他在芝加哥大学获得博士学位。

作为一作,他和同事共同创建了AlphaFold。

2021年,他被Nature列为年度榜单十大「重要人物」之一。

David Baker

David Baker 1962年出生于华盛顿州西雅图。

1984年获得哈佛学士学位,1989年获得UC伯克利生物化学博士学位。

他是蛋白质设计领域的「鼻祖级」人物,设计出了比AlphaFold更早的蛋白质结构设计算法RoseTTAFold,时间上比DeepMind更早。

作为美国国家科学院院士、华盛顿大学蛋白质设计研究所所长,他联合创办了十几家生物技术公司,并入选《时代》 2024年首届100名最具影响力的健康人物名单。

他们通过计算和AI揭示了蛋白质的秘密


支撑生命体各种活动的,是体内旺盛且多样的化学反应,而蛋白质发挥了关键作用。

蛋白质通常由20种氨基酸构成,理论上,这些氨基酸可以以无限多种方式组合。以存储在DNA中的信息作为蓝图,这些氨基酸在我们的细胞中被连接在一起形成长链。

接下来,蛋白质的奇妙之处就体现出来了:氨基酸链会扭曲并折叠成一个独特的,有时甚至是独一无二的三维结构,正是这种结构赋予了蛋白质的生物功能。

蛋白质可由十几个到几千个氨基酸组成,氨基酸链会折叠成特定的三维结构,而这种结构决定了蛋白质的功能

有些蛋白质成为生命体的基本单元,可以构建肌肉、角或羽毛,而其他的则可能成为激素或抗体。

其中许多蛋白质会形成酶,以惊人的精确度驱动生命的各种化学反应。位于细胞表面的蛋白质同样重要,它们充当细胞与其周围环境之间的信号传递通道。

蛋白质的首批图像

自19世纪以来,化学家们就知道蛋白质对生命过程至关重要,但直到20世纪50年代,化学工具才足够精确,研究人员才能开始更详细地探索蛋白质。

剑桥研究人员John Kendrew和Max Perutz在50年代末取得了突破性发现,他们成功使用一种叫做X射线晶体学(X-ray crystallography)的方法首次呈现出蛋白质的三维模型。

因为这一发现,他们于1962年获得了诺贝尔化学奖。

此后,研究人员主要使用X射线晶体成像技术,加上付出了大量努力,成功绘制出约20万种不同蛋白质的图像,才为今年的诺贝尔化学奖奠定了基础。

蛋白质折叠之谜:一个50年的挑战

美国科学家Christian Anfinsen做出了另一项早期重要发现。

通过各种化学技巧,他成功地使一个现有蛋白质展开,然后再次折叠起来。有趣的是,蛋白质每次都呈现出完全相同的形状。

1961年,他得出结论,蛋白质的三维结构完全由氨基酸序列决定,这项发现使他在1972年获得了诺贝尔化学奖。

然而,Anfinsen的逻辑中包含一个悖论,另一位美国科学家Cyrus Levinthal在1969年指出了这一点。

Levinthal计算出,即使一个蛋白质只由100个氨基酸组成,理论上该蛋白质也可以呈现出至少10^47种不同的三维结构。

如果氨基酸链是随机折叠的,那么找到正确的蛋白质结构所需的时间将比宇宙的年龄还要长。然而在细胞中,这个过程只需要几毫秒。那么,氨基酸链究竟是如何折叠的?

Anfinsen的发现和Levinthal的质疑共同指向了一个事实:氨基酸折叠是一个预定的过程。更重要的是,关于蛋白质如何折叠的所有信息都必须存在于氨基酸序列中。

生物化学领域新圣杯

上述见解导致了另一个决定性的认识——如果化学家得知了蛋白质的氨基酸序列,他们就应该能够预测蛋白质的三维结构。

这是一个令人兴奋的想法。如果成功,他们将不再需要使用复杂的X射线晶体学技术,并且可以大大节省时间;此外,还能够为所有X射线晶体学不适用的蛋白质生成结构。

这些逻辑和结论引出了生物化学领域的新圣杯:预测问题。

为了促进该领域的快速发展,1994年研究人员启动了一个名为「蛋白质结构预测关键评估」(CASP)的项目,之后发展成为一项竞赛,每两年举办一次。

在CASP竞赛中,来自世界各地的研究人员都可以拿到刚刚一批蛋白质的氨基酸序列。这些蛋白质的结构刚刚被测定出来,但对参赛者严格保密。他们需要根据已知的氨基酸序列来预测蛋白质结构。

CASP吸引了许多研究人员,但事实证明,蛋白质结构预测是相当困难的,多年来进展十分缓慢,预测结构和真实结构之间的异质性几乎没有任何改善。

直到2018年,突破才终于出现,一位集国际象棋大师、神经科学专家和人工智能先驱于一身的人物进入了这个领域,为这个长期存在的难题带来了全新的视角。

这个人,就是DeepMind联合创始人Demis Hassabis。

AlphaGo大师挑战蛋白质奥林匹克

Demis Hassabis无愧于当今AI深度学习的一大元老了。

他从4岁开始下国际象棋,13岁就达到了大师水平。在青少年时期,他便开始了程序员和游戏开发者的职业生涯。

随后,Hassabis开始探索AI,并涉足神经科学,做出了几项革命性的发现。

他坚定地认为,人工智能神经网络与人脑密不可分。因此,他决定利用自己所学的大脑知识,来开发AI神经网络。

2010年,Hassabis与儿时的好友Mustafa Suleyman、以及研究同僚Shane Legg共同在英国创立了DeepMind。

当时,他们创造了一个以类人方式学习玩棋盘游戏AI神经网络,一举成名。

这个神经网络可以接入一个外部的存储器,就像一个传统的图灵机一样,使得一台电脑可以模拟人类的短期记忆。

2014年,DeepMind被谷歌正式收购。

就在同年,Hassabis带领团队拿下了被许多人视为AI领域的圣杯。

他们开发出的AlphaGo算法击败了世界围棋冠军。最为人熟知的是,2016年AlphaGo在与著名棋手李世石交手中,拔得头筹。

随之,进化版的AlphaGo再次战胜了人类选手。

然而,对Hassabis来说,围棋并不是终极目标,而是开发出更好的AI的手段。

在这场胜利之后,他们准备去迎接对人类更为重要的挑战——

因此,在2018年,Hassabis和团队报名参加了第十三届蛋白质结构预测关键评估(CASP)竞赛。

Hassabis的AI模型意外获胜

过去几年里,CASP参赛的研究者在蛋白结构预测上,最多能实现40%的准确率。

Hassabis团队拿着AlphaFold去参赛后,竟达到了60%准确率。

因此,在CASP竞赛首次亮相的AlphaFold,拿下了2018年的冠军。

初代AlphaFold为43个建模领域中的24个创建了高精度结构。这一结果,足以让许多人为之震惊。

但对于他们来说,AlphaFold的潜力还远远没有被开发。

若要真正取得成功,蛋白质预测结构必须达到90%准确率。

由此,Hassabis和团队一起继续埋头深耕。

但是,无论他们如何努力,都无法突破技术瓶颈。

彼时的团队成员,早已疲惫不堪。

惊喜的是,一位刚刚入职的员工John Jumper提出了对AlphaFold改进的突破性想法。

John Jumper:迎接生物化学的「重大挑战」

作为AlphaFold的第一作者,DeepMind的高级研究科学家John Jumper曾在2021年被评为Nature年度十大人物。

曾经,对宇宙的着迷促使他开始学习物理学和数学。

但2008年,当他开始在一家利用超算模拟蛋白质及其动力学的公司工作时,开始意识到物理学知识可以帮助解决医学问题。

2011年,攻读理论物理学博士学位时,为了节省算力,他开始开发更简单、巧妙的方法,来模拟蛋白质动力学。

2017年,他完成了博士学位,听说谷歌DeepMind在秘密开发预测蛋白质的技术后,他发送了求职申请。

因为在蛋白质模拟方面的经验,他对如何改进AlphaFold有着创新性的想法,所以在团队遇到瓶颈后,他获得了晋升。

随后,他和Hassabis共同领导了开发AlphaFold 2的工作。

革新后的AI模型取得惊人结果

新版本的AlphaFold2,融入了Jumper对蛋白质的深入认知。

团队还开始使用Transformer,因而比以前更灵活地在海量数据中找到模式,有效地确定为了特定目标应该关注什么。

训练AlphaFold 2时,他们用了所有已知蛋白质结构和氨基酸序列数据库中的大量信息,而AlphaFold 2在第十四届CASP竞赛中表现优异。

当CASP的组织者在2020年评估结果时,他们意识到:生物化学50年来的挑战已经结束。

在大多数情况下,AlphaFold2的表现几乎与X射线晶体学一样好,这实在令人惊叹。

AlphaFold2的工作原理

一本关于细胞的教科书改变了David Baker的人生轨迹

David Baker最初进入哈佛大学时,选择了哲学和社会科学。

然而,在一门进化生物学课程中,他偶然接触到了经典教科书《Molecular Biology of the Cell》的第一版。正是

这本书,彻底改变了他的人生方向。

自此,他开始探索细胞生物学,最终对蛋白质结构产生了浓厚兴趣。

1993年,Baker进入华盛顿大学担任研究组长,开始直面生物化学领域的这个「重大挑战」。

通过一系列巧妙的实验,他开始探索蛋白质如何折叠。90年代末,他试着开发一款能预测蛋白质结构的软件,由此Rosetta诞生。

在1998年,Bake使用Rosetta首次参加CASP竞赛,表现异常出色。

这也启发了他的创新性想法:反向使用这个软件。

如果能输入所需的蛋白质结构,获得氨基酸序列的建议,就能创造全新的蛋白质,而非仅仅将氨基酸序列输入Rosetta,得到蛋白质结构。

Baker:从头设计蛋白质的先驱

20世纪90年代末,蛋白质设计领域开始蓬勃发展。

在许多情况下,研究人员对现有蛋白质进行定向改造,使它们能够执行新的功能,比如降解环境污染物或在化学制造业中充当催化剂。

然而,天然蛋白质的功能范围毕竟是有限的。为了突破这一局限性,增加蛋白质的潜力,Baker的研究小组提出了一个大胆的想法:从头设计全新的蛋白质。

这种想法从何而来?Baker曾经有一个形象的比喻:

「如果你想造一架飞机,你不会从改造一只鸟开始;相反,你会深入理解空气动力学的基本原理,然后基于这些原理构建全新的飞行器。」

Baker的这种从零开始的蛋白质设计方法,开创了蛋白质工程领域的新纪元,为未来的生物技术和医学应用提供了无限可能。

独特蛋白质的诞生:从头设计的突破

构建全新蛋白质,被称为「从头设计」(de novo design)。

Baker团队首先绘制了一种全新结构的蛋白质,然后利用名为Rosetta的软件计算出能够产生所需蛋白质的氨基酸序列。

Rosetta先搜索数据库中所有已知的蛋白质结构,寻找与目标结构相似的短蛋白质片段;随后,软件利用蛋白质能量图的基本知识,优化这些片段,并提出了最终的氨基酸序列。

为了验证软件的效果,Baker的研究小组将设计的氨基酸序列对应的基因引入到细菌中,使其产生目标蛋白质。随后,他们使用X射线晶体学技术确定了蛋白质的实际结构。

结果令人振奋:Rosetta确实成功构建了预期的蛋白质。这个观察到的名为Top7的蛋白质结构几乎完全符合他们的设计,标志着蛋白质工程领域的重大突破。

Top7——第一个与所有已知现有蛋白质完全不同的蛋白质

Baker实验室的惊人创造

对于蛋白质设计领域的研究人员来说,Top7的出现无疑是一个里程碑。

此前,从头设计蛋白质的尝试仅限于模仿自然界已存在的结构。而Top7的独特结构在自然界中前所未见。

更令人惊叹的是,它由93个氨基酸组成,比之前使用从头设计方法生产的任何蛋白质都要大得多,这相当于在分子尺度上构建了一个微型的「蛋白质大厦」。

Baker于2003年发表了这一开创性发现,并慷慨地公开了Rosetta的源代码,这一举动极大地推动了全球研究社区对该软件的持续开发和创新应用,为蛋白质设计领域注入了新的活力。

随着这些突破性成果的涌现,2024年诺贝尔化学奖的轮廓已经初现。

曾经需要数年的工作现在只需几分钟

当Demis Hassabis和John Jumper确认AI蛋白质结构预测工具AlphaFold2真的有效时,便开始了所有人类蛋白质结构的计算。

随后,他们预测了研究人员在探索地球生物多样性过程中,发现的几乎所有2亿种蛋白质的结构。

不仅如此,谷歌DeepMind还公开了AlphaFold2的代码,任何人都可以访问。

如今,这个AI模型已成为研究人员的宝贵资源。截至2024年10月,已有来自190个国家的超过200万名用户使用了AlphaFold2。

以前,获得一个蛋白质结构通常需要数年时间,而且并不总是能成功。现在只需几分钟就能完成。

虽然这个AI模型并非完美,但它能估计所产生结构的正确性,因此研究人员能够了解预测结果的可靠程度。

利用AlphaFold2预测的蛋白质结构

在2020年CASP竞赛之后,David Baker意识到了基于Transformer的AI模型的潜力。

随后,他便将其添加到Rosetta软件中,从而促进了蛋白质设计的发展。

近年来,一个又一个令人惊叹的人工设计蛋白质从Baker的实验室涌现。

利用Rosetta软件设计的人工蛋白质

AI的影响力,已经渗透进了诺贝尔奖的各个领域,不知接下来是否还会有惊喜。