2024诺贝尔化学奖揭示:人工智能引领科学领域最大贡献

发表时间: 2024-10-09 22:14

来源:诺贝尔奖官网

你可以想象吗?有一个AI大模型,它能准确预测人体中上亿个蛋白质的结构,而且,其精准性达到了冷冻电子显微镜的观测水平。它就是Alphafold。中国科学院院士、西湖大学校长施一公曾评价:这是人工智能对科学领域最大的一次贡献。该模型的两位开发者昨天(9日)分享了2024年诺贝尔化学奖

瑞典皇家科学院9日宣布,将2024年诺贝尔化学奖授予美国华盛顿大学西雅图分校的大卫·贝克““计算蛋白质设计”,另一半共同授予英国伦敦的德米斯·哈萨比斯和约翰·江珀“蛋白质结构预测”。其中,“蛋白质结构预测”正是这个AI模型。他们来自谷歌公司,解决了一个50年前的问题:预测蛋白质的复杂结构。

自2018年Alphafold首次发布,到2020年重大改进,再到后来不断完善,该技术已经获得科学界普遍认可,两位候选人短短几年已获得许多重大科学大奖。值得一提的,德米斯·哈萨比斯和约翰·江珀为70后和80后。这一回,站在诺奖奖台上的,不再是近年来常见的白发老者。

今年诺贝尔化学奖的主题是蛋白质——生命中巧妙的化学工具。蛋白质是生命的基础。被释放的蛋白质结构信息蕴含着生命信息的密码,将有力推动生命科学的发展,大大加速针对癌症、病毒的抗生素、靶向药物和新效率的蛋白酶的研发。但是,在过去50年中,“蛋白质折叠问题”一直是生物学界的重大挑战。此前,生物学家主要利用X射线晶体学或冷冻电镜等实验技术来破译蛋白质的三维结构,但这类方法耗时长、成本高。几年前,科学家用计算机预测复杂的蛋白质折叠结构,正确率还不到40%。直到德米斯·哈萨比斯和约翰·江珀所在的谷歌旗下DeepMind公司团队出现,奇迹出现了。当时,团队就有信心攻克这个世界难题。

2020年11月30日,Alphafold2在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。

已知氨基酸顺序的蛋白质分子有1.8亿个,但三维结构信息被彻底看清的还不到0.1%。2021年8月,DeepMind公司在《自然》上宣布已将人类的98.5%的蛋白质预测了一遍,计划年底将预测数量增加到1.3亿个,达到人类已知蛋白质总数的一半,并且公开了AlphaFold 2的源代码,免费开源有关数据集,供全世界科研人员使用。目前,AlphaFold 2升级为AlphaFold 3。

中国工程院院士李国杰指出:机器学习可以正确预测蛋白质结构,说明机器已掌握了一些人类还不明白的“暗知识”。

值得一提的是,DeepMind团队还是当年大名鼎鼎阿尔法狗的开发者,打败了全部的国际象棋和围棋高手。后来,他们致力于蛋白质结构密码的破译。那么,AI模型为何拥有如此巨大的分析能力?其原始数据何来呢经?

生物反应器工程国家重点实验室主任、华东理工大学生物工程学院副院长许建和介绍,Alphafold原始数据就来源于科学家用传统方式、花费数十年时间破解的20多万个蛋白质结构。“以20万的数据,推测出1亿多别的蛋白质结构,准确达90%,这就是AI的神奇之处。”许建和表示,自己的实验室也在以传统方式(包括冷冻电子显微镜、核磁共振或X射线晶体学等技术)破解蛋白质的结构,解析一个蛋白质,短至一个月,长的两三年,而且仅有1/3的成功率,由此可见Alphafold模型的意义所在。当然,AI模型目前不能解决所有蛋白质预测,一些复杂的蛋白质结构仍要通过实验室完成。

大卫·贝克““计算蛋白质设计”同样具有划时代的意义。想象一下,如果新合成一种蛋白能,能够识别流感病毒,是不是有望成为一种新的药物?这正是大卫·贝克十多年前做的一项实验。贝克实验室的梦想,是设计出多种不同的蛋白。这还不仅限于人体蛋白,包括动物、植物、病毒蛋白。它将助力于医疗、农业、生态保护各个领域。

可是,设计蛋白质并非易事,假设要设计一个由100个氨基酸组成的蛋白质,每一种氨基酸又有20种截然不同的可能,使将得可能的氨基酸序列总数高达20的100次方。这几乎是人类不可完成的任务。于是,大卫·贝克也借助了AI技术,其团队开发的RoseTTAFold系统在解析蛋白质3D结构方面的表现与AlphaFold2的水平几乎相当。可以预见的是,蛋白质设计新技术让人类有能力去挑战任何类型的靶点,这是当下生物医药产业的幸运,也为人类攻克各类疾病带来希望。

新民晚报记者 张炯强