随着ChatGPT和Gemini等语言模型在硅谷开创了人工智能的新时代,世界上最强大的科技公司正将目光投向药物发现和数字生物学。
文|Richard Nieva,Alex Knapp
今年1月,在旧金山举行的摩根大通医疗保健大会(本年度最大的医疗科技盛会)上,英伟达公司首席执行官黄仁勋(Jensen Huang)扫视了一下台下的观众,承认自己正身处不熟悉的领地。
“你们不是我最常见的听众。”在与药物研发公司Recursion(英伟达去年向这家公司投资了5000万美元)的炉边谈话中,他对一屋子的健康和生物技术专家说。
的确,这些观众可能不是他的核心受众,但他希望这种情况会有所改变。在演讲中,黄仁勋一遍又一遍地将数字生物学吹捧为技术领域的“下一个惊人革命”。随着人工智能热潮席卷硅谷,英伟达的业务规模已超过每年600亿美元,并在去年夏天成为为数不多的市值达万亿美元的公司之一。现在,它在健康和生物技术领域看到了更多推动增长的机会。
英伟达医疗保健副总裁金伯利•鲍威尔(Kimberly Powell)在接受《福布斯》采访时表示:“我们已经被宣布为英伟达下一个数十亿美元的业务。”她说,公司的目标是为更多的生物技术公司提供芯片、云基础设施和其他工具。
当生物技术迎来人工智能革命
现在,像OpenAI的ChatGPT和谷歌DeepMind的Gemini这样的大型语言模型已经成为生成式人工智能的主流,一些世界上最强大的科技公司正把生物技术视为人工智能的下一个前沿——在这个前沿,人工智能不会根据提示生成有趣的诗歌,而会生成下一个拯救生命的药物。
凭借其强大的GPU芯片,英伟达可以说是人工智能革命的中坚力量,但该公司风险投资部门过去两年的大部分投资都在药物研发上。在DeepMind,谷歌人工智能实验室的AlphaFold模型(一种预测蛋白质结构的突破性工具)在过去一年里被学术研究人员用于开发一种“分子”注射器,可以将药物直接注射到细胞中,并用于研究对农药依赖程度较低的作物。整个科技行业都对生物技术感兴趣:微软(Microsoft)、亚马逊(Amazon),甚至Salesforce都有蛋白质设计项目。
虽然在药物发现中使用人工智能并不是一个新趋势——DeepMind在2018年就首次推出AlphaFold——但DeepMind和英伟达的高管都告诉《福布斯》,这是一个突破性的时刻,这要归功于三件事的共同作用:现在可用的大量训练数据、计算资源的爆炸式增长和人工智能算法的进步。鲍威尔说:“这三种要素是第一次同时出现。这在五年前是不可能的。”
人工智能之所以在生物技术领域有着巨大的潜力,正是因为该领域的复杂性——就拿AlphaFold所针对的问题来说吧。蛋白质是人体的基本构成元素,管理着人体各种各样的功能。所有这些功能都依赖于蛋白质的三维形状。每种蛋白质都是由一系列氨基酸组成的,这些氨基酸和外部环境之间的相互作用决定了蛋白质的“折叠”方式,而这些折叠方式又决定了它的最终形状。生物技术公司对能够根据氨基酸序列预测蛋白质的形状非常感兴趣,因为它们可以利用这些洞察来设计从新药到改良作物再到可生物降解塑料的一切产品。
而这也正是深度学习的用武之地:在数亿种不同的蛋白质序列及其底层结构上训练人工智能模型,帮助这些模型揭示生物学中的规律,而不一定需要进行真正的分子动力学模拟所需的昂贵计算。完全模拟蛋白质需要非常强大的算力资源,以至于一些机构专门设计和建造了超级计算机来处理这类问题,比如匹兹堡超级计算中心的Anton 2。
人工智能药物研发热潮来临
科技巨头加速布局蛋白质折叠研究
与此同时,药物发现技术的繁荣也不完全是来自人工智能科技巨头。Pitchbook的数据显示,自2021年以来,全球已经有281笔针对人工智能药物研发初创公司的风险投资交易,投资总额为77亿美元。最大的峰值出现在2021年,当时达成了105笔交易,高于前一年的65笔,到2023年逐渐减少到67笔。在本月早些时候发布的一份报告中,这家分析公司指出,人们对“早期公司将人工智能整合到药物发现和开发中”仍然抱有强烈的热情。华盛顿大学蛋白质设计研究所(Institute for Protein Design)所长戴维•贝克(David Baker)表示,生成式人工智能的兴起也引发了人们对这一领域越来越大的兴趣。
“过去,它还是一种疯狂、边缘的事物,非常脱离主流。”贝克说。现在,“每个人都在谈论它。”贝克还透露,自2012年蛋白质设计研究所成立以来,已经有20多家初创公司从该项目中脱胎而出,其中10家是近几年(2021年以后)成立的,包括为再生医学和癌症治疗开发纳米材料的Archon Biosciences公司,以及为纤维化疾病开发治疗方法的Lila公司。
在DeepMind,直到新冠疫情爆发,研究人员才真正意识到他们研究的重要性。他们花了将近5年的时间来开发AlphaFold,而正当他们为第二代模型重新训练时,整个世界因为新冠病毒而开始居家避难。“这确实让人们意识到这个问题的重要性,”DeepMind的科学副总裁什米特·科利(Pushmeet Kohli)在接受《福布斯》采访时表示。
科利笑着回忆道,DeepMind重新训练的结果是AlphaFold 2,这是一个突破性的模型,可以非常准确地预测蛋白质结构,以至于全球蛋白质折叠研究竞赛CASP的组织者给DeepMind发了电子邮件,询问该公司是否以某种方式进行了作弊。
这项工作是如此有希望,以至于联合创始人德米斯·哈萨比斯(Demis Hassabis)在2021年基于AlphaFold的突破在Alphabet成立了一家独立的公司。这家名为Isomorphic Labs的初创公司专注于药物研发,由哈萨比斯亲自掌舵。就在今年,Isomorphic Labs与礼来公司(Lilly)和诺华公司(Novartis)签署了研究协议,如果协议中的所有里程碑都能实现,那么总价值将接近30亿美元——这还不包括这些合作关系带来的潜在药品销售的丰厚版税。
2022年,英伟达推出了BioNeMo,这是一个生成式人工智能平台,可帮助开发人员加速训练、部署和扩展用于药物发现的大型语言模型。在该芯片制造商的风险投资部门Nventures总共完成的19笔交易中,有7笔涉及人工智能药物研发初创公司,包括Genesis Therapeutics、Terray和Generate Biomedicines,是所有投资类别中数量最多的一个。
“计算机辅助设计行业创造了第一家价值2万亿美元的芯片公司,”鲍威尔说,他指的是英伟达和它在过去一年里的飞速增长。“既然这样,为什么计算机辅助药物研发行业不能建立下一个万亿美元的制药公司呢?”她补充说,“这就是为什么我们要以现在的方式进行投资的原因。”
与此同时,其他几家科技巨头也都有自己的蛋白质折叠研究。去年,Salesforce推出了蛋白质生成人工智能模型ProGen,微软发布了类似的开源模型EvoDiff。亚马逊还为其AWS机器学习平台SageMaker发布了蛋白质折叠工具。《福布斯》今年1月报道称,就连TikTok的母公司字节跳动似乎也在招聘科学和药物设计团队。
人工智能药物研发道阻且长
然而,尽管人工智能药物研发前景光明,备受关注,但也遭遇了一些挫折。让药物通过临床试验仍需要数年时间,尽管到目前为止,FDA已经批准了100多种使用人工智能或机器学习进行开发的新药候选药物的临床试验,但任何新药要想进入市场,可能还需要数年时间。
还有一些情况下,与药物发现相关的困难导致某些大型科技公司放弃了这项研究。去年8月,Facebook的母公司Meta关闭了其蛋白质折叠团队。据《福布斯》去年报道,该部门的研究人员后来自立门户,成立了一家名为EvolutionaryScale的公司。Meta拒绝就关闭该项目的原因发表评论。
科技公司需要关注的一个重要瓶颈是拥有足够的培训数据。像GPT这样的新基础模型依赖于强化学习,这是一种算法可以通过反复试验来处理未标记信息的方法。合成生物学公司Ginkgo Bioworks的人工智能主管安娜·玛丽·瓦格纳(Anna Marie Wagner)告诉《福布斯》,这使得他们更加依赖高质量的数据。
去年夏天,她的公司与谷歌云达成了为期五年的战略合作伙伴关系,将其人工智能专业知识与Ginkgo在自动化实验室中快速生成生物数据的能力结合起来,然后这些数据可以立即作为新的训练数据输入人工智能模型。她说,这种结合有助于更好地优化发现过程。
此外,她说,Ginkgo能够快速验证模型预测。与直觉相反的是,这使得人工智能模型有时会产生“幻觉”(也就是对提问生成错误或有误导性的结果)的现象成为了它的“一个特征,而非缺陷”,因为它可以带来科学家们可能无法想象的有趣发现。“我们希望这个模型能想出一些疯狂的东西,因为这正是我们开始看到数量级改进的地方。”
科利则对数据问题给出了更加直言不讳的点评:“垃圾进,垃圾出。”尽管如此,随着业界努力解决这些问题,他已经看到了人工智能对生物研究的影响。他说:“当我去参加会议时,我看到了生物学家以前和现在的工作方式发生的变化,这真是一个惊人的转变。”
本文译自
https://www.forbes.com/sites/richardnieva/2024/03/13/why-nvidia-google-and-microsoft-are-betting-billions-on-biotechs-ai-future/?sh=1542034a20a5
福布斯中国独家稿件,未经许可,请勿转载
头图来源:盖蒂图片社
精彩资讯永不错过
▽