复旦学者研发蛋白解析新算法,GitHub上开源代码已发布

发表时间: 2023-12-04 17:54

近日,复旦大学复杂体系多尺度研究院院长马剑鹏和团队,研发出一款名为 OPUS-DSD(OPUS deep structural disentanglement)的算法。它能大大提升蛋白质结构测试精度,并能测出以往方法所无法测出的部分。



图 | 马剑鹏(来源:马剑鹏)


针对相关论文审稿人表示:“OPUS-DSD 是对现有冷冻电镜工具箱的一个有价值且及时的补充。”



(来源:Nature Methods)


马剑鹏表示:“针对几乎所有需要由冷冻电镜测定的生物分子结构、尤其是超大规模复合体,OPUS-DSD 都能起到重要作用。


具体来讲:


其一,在动态生物分子研究上:OPUS-DSD 可以提取冷冻电镜数据中存在的结构动态信息,从而揭示生物大分子可能存在的各种不同组合、构象、甚至是构象间的动态变化过程等信息,进而帮助分子生物学家理解生物大分子作用机理。


同时,针对冷冻电镜数据,OPUS-DSD 还能依据其构象、组分等进行分类,有望起到减少数据异质性,帮助提高实验所测结构的精度。


其二,在药物设计上:OPUS-DSD 能为药物设计提供动态的结构信息,有助于发现和优化与动态靶标相互作用的分子。


蛋白质结构测定的最终目的之一在于实现药物设计,而测出更精确的蛋白结构,将能有效降低新药研发中因蛋白结构测定不准而导致的研发失败概率。



从蛋白质结构解析的两种测定方法说起


据了解,蛋白质结构解析——分为实验蛋白测定和计算蛋白预测。


实验蛋白测定,顾名思义就是在实验室里通过精密操作来测定蛋白质的结构情况,这一工作涉及到使用实验仪器。


冷冻电子显微镜就是一种重要的仪器,通过它的极低温环境,可以将蛋白质冷冻,从而进行观察并收集数据。目前,它也是测定蛋白结构的一种重要手段。


计算机蛋白结构预测,这一领域已经发展了几十年,Alphafold2 的问世让该领域得以被更多人了解,也催生了 AI for Science 的诞生。


近些年来,人工智能技术的加入,极大推动了结构生物学的发展。智能算法的影响,不仅体现在计算蛋白结构预测水平的提升上,也正在影响着实验蛋白测定。


其中一个重要方面便是通过开发先进算法,来提升冷冻电镜的结构测定准确率,尤其是针对蛋白质结构柔性的问题。


所谓结构柔性,是指蛋白质因为其功能所需,其结构处于不断的动态变化中。运动中的蛋白质很难被观测清楚,而忽视它的运动又会影响到对其功能的理解。


所以,如何针对运动中的蛋白实现更高精度的结构测定,一直是困扰结构生物学界的重大问题。受此影响,此前使用冷冻电镜测定出来的蛋白质结构,在运动较大的区域的精度往往比较有限。


在马剑鹏的整个职业生涯过程中,他一直专注于如下方向的研究:针对柔性生物大分子的实验,如何改善其结构测定的精度。计算方法,则是他经常用到的一项“法宝”。


在本次 OPUS-DSD 的工作之中,他所要解决的是一个已经存在多年、全球学界孜孜以求期望突破的难题。


事实上,在早期主流的 X 光晶体衍射技术,以及当下十分流行的冷冻电镜技术中,上述问题一直存在,且并未完全被攻克。


在马剑鹏尚未回国之前,罗镇威博士——是马剑鹏在美国莱斯大学任职期间培养的一名优秀学生。


当时,罗镇威的研究内容主要是优化三维重构算法,从而在动态冷冻电镜数据中获取更高分辨率的三维模型,这时主要基于的是 Relion 的三维重构。


所以,马剑鹏和罗镇威打算继续在上述基础之上,使用 C++ 编程实现神经网络,并将类似功能整合到 Relion 中。


由于 C++ 编程的难度较大,这让调试环节变得十分困难,即使调用 Pytorch 的 C++ 库来构建神经网络,进展仍然极为缓慢。


后来,随着 cryoDRGN 冷冻电镜成像技术的出现,他们决定将开发迁移至 Python 和 cryoDRGN 上。


同时,一种用于学习、渲染和驱动动态对象的方法——Neural Volumes 的出现,也给他们带来了灵感。


通过借鉴 Neural Volumes 并将程序迁移至 cryoDRGN 后,课题组终于得以使用神经网络来进行三维重构。


然而,距离解析数据异质性仍然存在一些距离。不同于 cryoDRGN 在倒空间拟合数据的思路,他们发现在实空间构造一些先验再进行三维重构,可以得到更精准的结果。


于是,马剑鹏和罗镇威开始将研究重点放到如何在实空间之中拟合结构异质性。但是,由于冷冻电镜的数据和当前深度学习着重研究的图片数据并不相同,这让本次工作一度陷入瓶颈。


具体来说,当前深度学习算法处理的图片数据可被认为是无噪声的,图片集内物体存在较大的多样性。


而冷冻电镜的数据噪声极大,并且还会受到对比度传递函数(contrast transfer function)的影响,以至于会出现对焦模糊的问题。


因此,当把神经网络架构用于冷冻电镜数据的时候,仍需进行一定的调整。而由于冷冻电镜数据的信噪比极低,训练变分自编码器(VAE,Variational AutoEncoder)时常会遇到模式坍塌(Mode Collapse)的问题。


“我们对此进行了一些调整,最终收获了在冷冻电镜数据上稳定训练 VAE 的方法。接着,我们开始在真实数据上进行广泛测试,并不断优化方法,这时课题组才开始出现了理想进展。”马剑鹏表示。



(来源:Nature Methods)



论文一作为全身心投入基础研究,放弃业界高薪职位


而对于算法开发来说,历来是一个缓慢且艰巨的任务。尤其是本次算法的开发,难度尤其之大。


在马剑鹏的科研生涯早期,他和团队主要研究 X 射线晶体学。当时,他曾投入大量精力希望提高 X 射线解析大分子蛋白质的精度。


尽管当时也曾做出不错的突破,不过恰逢冷冻电镜方法的崛起,导致他们之前的工作似乎陷入了重要性降低的局面。


这在当时给课题组的研究带来了一定挑战,但实际上也为他们接下来从事冷冻电镜的研究奠定了良好的技术积累。因为在这两个领域之中,本质的问题基本是相通的。


而本次 OPUS-DSD 的课题前后累计跨越两三年时间,算上更早之前的积累,马剑鹏和罗镇威已经投入了四五年。


“期间,罗镇威博士还放弃了来自工业界的高薪职位机会,全身心投入在基础科学研究当中。尽管我们最初几版成品的解析效果并不理想,但我们从未放弃寻找新的突破角度,就这样我俩持续地思考问题所在,让算法参数得到了不断优化。”马剑鹏说。


研究中,罗镇威博士发挥了自己的独立工作能力,很多重要算法都是由他自主建立。“尽管我们在组会讨论时,经常为了一个问题争论得面红耳赤,但是团队成员之间的交流讨论,也为课题组的进一步发展提供了灵感和方向。”马剑鹏说。


最终,相关论文以《OPUS-DSD:用于冷冻电镜单粒子分析的深层结构解缠结》(OPUS-DSD: deep structural disentanglement for cryo-EM single-particle analysis)为题发在 Nature Methods(IF 48),罗镇威是第一作者,马剑鹏担任通讯作者。



图 | 相关论文(来源:Nature Methods)


整体来看,OPUS-DSD 代表着三维重构的一种不同思路。在传统冷冻电镜成像之中,三维重构都是在倒格子空间完成的。包括 cryoDRGN 在内的方法尽管可以节约内存和计算,不过很多实空间的先验和约束都无法用在其上。


但是随着 GPU 的出现以及计算性能的大爆发,即便在实空间中进行三维重构,也能以相当快的速度完成。比如 Nerf 和 Neural Volumes 这类算法,都是定义在实空间之中。


马剑鹏表示:“因此,我们相信实空间中的冷冻电镜数据处理依然有广阔的前景。”


基于此,他和团队一方面将继续优化 OPUS-DSD 的重构质量,提高神经网络直接输出的三维模型的分辨率,从而让 OPUS-DSD 重构的结果中包含更高分辨率的动态信息。


另一方面则打算将 OPUS-DSD 拓展到冷冻电子断层扫描数据上。目前这一功能已经开发完成,接下来他们将结合实际数据对其加以进一步优化。



(来源:Nature Methods)



个人的三十年,时代的三十年


在本次论文正式发表之际,马剑鹏回国发展已有五年之久。1990 年,马剑鹏赴美留学。2018 年,他全职回国加入复旦大学并创办复杂体系多尺度研究院(MRICS,Multiscale Research Institute for Complex Systems)。


在这将近三十年的时间里,不仅是他个人在计算结构生物学领域积累与发展的三十年,也是中国提出并深化科技强国理念的三十年。


他说:“我们这一批人见证并经历了科技人才出国深造与归国建设的浪潮。就我所从事的计算结构生物学领域而言,美国方面的发展始于 20 世纪中期,随着 X 射线晶体学和核磁共振技术的发展,学界开始解析蛋白质和核酸的三维结构。”


美国一些研究机构和大学,比如马剑鹏做博士后时所在的哈佛大学团队,曾在这一领域取得过重要突破。


现年已经 93 岁的计算生物奠基人、美国理论化学家马丁·卡普拉斯(Martin Karplus)教授、以及已故的北美实验结构生物学鼻祖威廉·利普斯科姆(William Lipscomb)教授,曾先后获得诺贝尓奖。马剑鹏在美国留学期间,有幸成为这两位教授的学生。


这让当时的马剑鹏有机会接受最先进的理念,并能和最优秀的团队一起从事科研工作。


中国在计算结构生物学领域的发展相对较晚,在三十年前的实力还比较薄弱。后来,国内有识之士开始关注到这一领域的重要性。


21 世纪初至今,国内相关部门逐渐增加对于计算结构生物学研究的投入,支持建设了一系列研究项目和实验室,并积极引进全球优秀科学家参与建设,推动中国在这一领域快速发展,迅速缩小了与国际水平之间的差距。


2018 年,马剑鹏与团队获得上海市“高峰人才计划”项目支持,随后他开始着手建设复旦大学复杂体系多尺度研究院,该院坐落于复旦大学张江校区。



(来源:资料图)


由于他和团队已在该领域深耕多年,因此他的率队回国不仅能带回最先进的理念和优秀的人才团队,也可以获得更好的科研支持。


目前,他所带领的 MRICS 研究院旨在面向国际前沿问题,利用人工智能、大数据等方法结合传统实验手段,展开分子与结构生物学、化学、物理学等交叉领域的研究。


同时,其也正采用国际前沿的多组学联合分析和生物信息学等技术解决生物学问题,利用计算和实验相结合的方法揭示疾病的发生和发展过程,以及疾病对药物响应的系统性变化。


成立至今,MRICS 研究院已经建立了具备干湿结合、基于蛋白质结构的全链条 AI 赋能新药创新的一体化研发平台。在该平台上,马剑鹏和团队打通了从全新目标蛋白发现、计算结构预测、实验结构测定、专用模拟算法开发、到颠覆性大分子药物研发的整个通路的研究。


他表示:“在我看来,如今中国对科技的支持和重视,是吸引人才集聚和回归的重要因素。近年来,中国的研究团队逐渐在蛋白质结构预测、分子模拟、药物设计等领域取得了一些重要的研究成果。”


“也正是在国家和上海市的支持下,我们才能取得类似于本次成果的突破性科学进展。这是时代的大势所趋,”马剑鹏总结称。


参考资料:

1.Luo, Z., Ni, F., Wang, Q.et al. OPUS-DSD: deep structural disentanglement for cryo-EM single-particle analysis. Nat Methods 20, 1729–1738 (2023). https://doi.org/10.1038/s41592-023-02031-6