探索人工智能在蛋白质改造领域的应用

发表时间: 2024-11-07 15:08

“要么换行业,要么拥抱人工智能。”这是互联网企业员工的感慨吗?不,这是一位科学家的启悟。

2020年蛋白质结构预测模型AlphaFold2横空出世,上海交通大学物理与天文学院、自然科学研究院教授洪亮大受震撼。彼时他是计算化学领域的专家,志在借助各类装置“看清”蛋白质的结构,并用传统计算方法解释其结构特点。AlphaFold2颠覆了这一切——它能广泛预测蛋白质的结构,准确程度不亚于真实实验所获。

不出所料,AlphaFold的开发者德米斯·哈萨比斯和约翰·江珀在2024年斩获诺贝尔化学奖,与他们一起获奖的戴维·贝克同样是借人工智能“破译了蛋白质的密码”。

到此,您或许还觉得这些都只是象牙塔里的事。不过,接下来将带给您一点点震撼:寻常如食品、宝贵如药物、高价值如医美产品、产业化如工业用酶……都已开始领略人工智能的力量。而且,不仅仅是预测,AI已经开始改造这个蛋白质支撑起的广大世界。



改造蛋白质的浪潮已来


人类生活离不开蛋白质,这一点不懂生物学也能了解。但是,人类社会的需求越来越多样,要求越来越高端,天然蛋白质未必能满足我们,科学家就开始考虑改造蛋白质了。

但是,这谈何容易!

传统方法改造蛋白质主要是依靠专家经验和高通量实验筛选,一般需要2至5年的研发周期,实验数据少则几万、多则上亿,成本更是千万元量级。

不过,洪亮团队改造蛋白质可以做到数十个项目同时进行,而且效率还不一般……

金赛药业是国内生长激素龙头企业,其产品纯化时需要用到一种抗体(蛋白质的一种)。但这种抗体耐碱性很差,纯化所必需的强碱环境会破坏其结构,导致抗体消耗很大。

怎么办?洪亮团队仅用4个月,交给企业改造而得的新抗体,耐碱性提高4倍,企业成本一年就可节约1500万元。

难道洪亮团队有什么魔法?其实他们只是主动拥抱技术浪潮而已——团队开发的基于预训练的通用人工智能Pro大模型扛起了所有。使用这一次从序列直达功能的大模型,研发周期可以月计算,产品更为稳定,活性更高,更不必说实验数据只需约100个,成本低至100万元。人工智能,为生命科学的基本流程按下了“加速键”。


为什么人工智能手段更强


为什么传统方法改造蛋白质很困难?这与蛋白质本身的复杂性有关。自然界中参与构成蛋白质的氨基酸有20种,一个蛋白质分子一般由几十个乃至数百个氨基酸组成,这些氨基酸按照一定序列连接肽链,一条或多条肽链遵循某些规律折叠才能得到蛋白质。

不难发现,即使只改变序列中某一个特定的氨基酸,也有19种选择。而随着想改变的氨基酸数量增加,可选方案的数量指数级增长,找到理想方案无异于大海捞针。

那人工智能是怎么做的呢?以Pro大模型为例,最关键的第一步就不同凡响:研究人员将要被改造的“野生”蛋白质序列上传给模型,1到2个小时后,模型会输出大约30个方案。

洪亮介绍,在此过程中,模型完成了两轮筛选,一是在众多有可能的改造方案中选出符合自然规律的,类似于将筛选范围从“大海”缩小到了“水盆”;二是以热稳定性、活性、亲和力、衰减耐受性等功能为指标,对“水盆”里的方案进行蛋白质功能打分,进而根据功能需求将范围缩小到“水杯”。

模型能发挥以上两大核心作用,要从数据驱动说起。简单说就是,投喂给模型足够多的数据,它就能从中总结出规律,从而预测新的答案。

洪亮介绍,团队向Pro模型投喂了近8亿蛋白质序列数据和接近1亿的蛋白质功能标签,其中超过5亿蛋白质序列和所有蛋白质功能标签来自团队及合作机构的长期积累,这是他们的核心优势。

值得一提的是,功能标签是该模型的“独门秘笈”,借助它可以为蛋白质序列与前文提到的热稳定性、活性、亲和力、衰减耐受性等功能找到合理的对应方式。此前AlphaFold2预测蛋白质结构一鸣惊人,就是因为它完美实现了蛋白质序列到结构的对应,而蛋白质序列到功能的良好对应有助于蛋白质实现更优异功能,可谓改造蛋白质的“胜负手”。


从蛋白质到底盘菌,有可能吗


改造蛋白质的可选方案从“大海”缩小到“水杯”之后,还要做什么呢?

第一步:湿实验验证,也就是将第一步中模型产出的方案拿去验证,并将验证结果反馈给模型,供其学习和调整。

洪亮团队正进行湿实验验证


第二步:模型重复第一步的预测,给出新一批方案,大约也是30个。

第三步一般也是最后一步:通过湿实验,从新一批方案中选出理想方案。

在洪亮团队位于上海张江的工作平台,我们可以看到,这里有湿实验所需的各类实验室,人工智能研究人员的工位就在实验室外,大家交流起来很方便。“虽然我们训练模型用了几年时间,但为后来工作的效率打好了基础。”洪亮说,现在众多蛋白质改造项目同时进行,人工智能环节却只需要两个人,其余十余人主要是负责湿实验。

现在,更有提升空间的其实是湿实验,每轮湿实验验证需要1至2个月,每轮模型预测只需要1至2个小时。如果湿实验的机械化、智能化程度进一步提高,改造蛋白质的速度还会加快。

对于科学家来说,拥抱新技术的脚步一旦迈出,就不会轻易停歇。“蛋白质做得差不多了,我们在往纵深探索,下一步要攻关底盘菌的人工智能工程化方案。”洪亮指的是将蛋白质的人工智能改造,扩展到人工智能生产,通过改造底盘菌的基因组,让其高效生产目标产品。

如果要往更深层次理解,人工智能“攻下”蛋白质,其实是在“破译”生命的路上突飞猛进。以人工智能的颠覆性速度,或许要不了多久,我们就能目睹从“破译”生命到“修正”生命的变革。


作者:董雪 吴振东

*本文为《半月谈》2024年第20期内容