伴随着技术平等化的步伐,曾经局限在专业范围内的人工智能正飞速步入人们的日常生活。如今,人们不仅在经济、教育和医疗等领域中可以看到人工智能的作用,而且在科学研究的最前沿,人工智能也发挥着不可替代的重要作用。近日,英国《经济学家》刊发专题《科学中的人工智能:更快、更好、更高效》(AI in Science: Faster, Better, and More Productive),介绍并展望了人工智能在科研中的作用和潜力。
2019年,麻省理工学院的科学家们在现代医学领域做了一件非同寻常的事情,他们发现了一种新的抗生素盐酸盐。今年5月,另一个研究小组发现了另一种抗生素苦杏仁素。这两种化合物可用于对抗两种已知最危险的抗生素耐药细菌,而且都是使用人工智能模型搜索数百万种备选化合物后确定的对“超级细菌”最有效的化合物。药物发现并不是唯一受到人工智能影响的领域。研究人员正在解决许多世界上最复杂和最重要的问题:从预测天气到寻找电池新材料太阳能板新材料,再到控制核聚变反应,这些领域都在求助于人工智能,以增强或加速进步。
●人工智能应用广泛
人工智能助力研发的潜力是巨大的。总部位于伦敦的人工智能实验室谷歌深度大脑的联合创始人戴密斯·哈萨比斯(Demis Hassabis)表示:“人工智能可能迎来一场新的发现复兴,充当人类智慧的倍增器。”他把人工智能比作望远镜,可以让科学家比用肉眼看得更远,了解更多。
尽管自1960年代以来,人工智能一直是科学工具包的一部分,但在大部分时间里一直停留在科学家熟知的计算机代码学科范围内,例如粒子物理学或数学。但根据澳大利亚科学机构CSIRO的数据,到2023年,随着深度学习的兴起,99%以上的研究领域都在产生与人工智能相关的结果。伦敦阿兰·图灵研究所首席科学家马克·吉罗拉米(Mark Girolami)表示:“技术的平等化是导致这一现象的原因。”过去需要攻读计算机科学学位和掌握一系列晦涩编程语言才能完成的工作,现在可以通过用户友好的人工智能工具来完成,比如向ChatGPT进行查询。科学家们可以很容易地接触到这个超人般的研究助手,它可以解方程,并不知疲倦地筛选大量数据,寻找其中的规律或相关性。
利物浦大学的研究人员使用了一种被称为“自动编码器”的人工智能模型,在世界上最大的无机晶体结构数据库(ICSD)中搜索所有20万种已知的稳定晶体化合物,成功地将科学家在实验室测试的候选材料从数千种减少到只有5种,节省了大量时间和金钱。
人工智能也可以用于预测。科学家一直不知道蛋白质是如何折叠的,但在2021年,谷歌深度大脑开发了AlphaFold,这是一个自我学习的、仅从氨基酸序列就能预测蛋白质结构的模型,它已经建立了一个包含超过2亿个预测蛋白质结构的数据库。牛津大学生物化学家马修·希金斯(Matthew Higgins)使用它预测出了蚊子体内一种蛋白质的形状,这种蛋白质对蚊子经常携带的疟疾寄生虫具有重要作用。然后,他又结合AlphaFold的预测,找出了蛋白质的哪些部分最容易被靶向药物攻克。另一个团队使用AlphaFold在短短30天内发现了一种影响肝癌增殖方式的蛋白质结构,从而为设计一种新的靶向治疗方法打开了大门。
人工智能在复杂的计算机模拟提速方面也被证明行之有效。预测天气的超级计算机价格昂贵,消耗大量电力,并且耗时长。如今,气候科学家和私营公司开始使用机器学习来加快模型计算的速度。由中国华为公司开发的人工智能“盘古气象大模型”(Pangu-Weather)可以提前预测一周天气,速度快,成本低。美国芯片制造商英伟达(Nvidia)开发的FourCastNet模型能提供预测山洪暴发等自然灾害的重要信息。英伟达还宣布计划建造一个地球的数字孪生体,名为“地球—2”,希望能够提前预测未来几十年气候变化。
与此同时,试图利用核聚变力量的物理学家一直在使用人工智能来控制复杂设备,由谷歌深度大脑和瑞士洛桑联邦理工学院的科学家建立的人工智能控制系统可以在计算机模拟中尝试不同形状的等离子体,并计算出如何最好地加以实现。实验室工作还可以实现自动化和加速化。“自动驾驶实验室”可以使用机械臂执行实验,然后分析结果。自动化可以加快发现新化合物或用新方法制造旧化合物的速度,提速可达一千倍。
●生成式AI受年轻人欢迎
随着2022年ChatGPT的到来,生成式人工智能迅速进入公众视野,ChatGPT有两个主要的科学用途。首先,它可以用来生成数据。就像大型语言模型(LLM)通过预测序列中下一个最佳单词可以生成流畅的句子,生成分子模型能够一个原子一个原子地构建分子。大型语言模型将自学的统计数据和从互联网上精选的数万亿字的培训文本结合起来,写作方式几乎近于人类。在已知药物及其特性的庞大数据库的训练下,“从头开始的分子设计”模型可以找出哪种分子结构最有可能起什么作用。总部位于加州的Verseon制药公司已经用这种方法研制出了一些候选药物,其中一些正在动物身上进行试验,还有一种精确抗凝血剂正处于临床试验的第一阶段。
ChatGPT的第二种科学用途是滑铁卢大学心理学家伊戈尔·格罗斯曼(Igor Grossmann)提出的大型语言模型更具未来主义色彩的用途。如果大型语言模型能够被真实或虚构的背景故事所激励,从而准确反映人类参与者可能会表达出的言语,那么从理论上讲,大型语言模型可以取代焦点小组,或者被用作经济学研究的代理人。大型语言模型可以接受各种不同角色的训练,然后其行为可以用来模拟实验,如果有意义,实验结果可以在人类实验对象身上得到证实。
大型语言模型让科学家的研究变得更高效了。根据代码托管平台GitHub的数据,程序员如果使用类似Copilot的工具可以将编写软件的速度提高55%。在开始一个项目之前阅读一个领域的背景研究可能是一项艰巨的任务,因为现代科学文献的规模太大,很难驾驭。美国非营利研究实验室Ought开发的免费在线人工智能工具Elicit可以帮助研究者利用大型语言模型梳理堆积如山的研究文献,并比人类更快地总结出重要的内容。这已经被学生和年轻科学家使用,这些人发现,在面对汗牛充栋的文本时,大型语言模型可以帮助他们找到可以引用的论文,或者确定研究方向。大型语言模型甚至可以帮助研究人员从数以百万计的文档中提取结构化信息,例如使用特定药物完成的每个实验。
人工智能还可以扩大学科内知识的获取。位于日内瓦的欧洲核子研究中心(CERN)的大型强子对撞机(Large Hadron Collider)的每个探测器都需要有自己的专业操作和分析团队。这就需要来自每个探测器的物理学家聚在一起分享专业知识,对数据进行组合和比较。加州大学物理学家米格尔·阿拉蒂亚(Miguel Arratia)建议使用人工智能来整合来自多个基础物理实验(甚至宇宙学观测)的测量结果,以便理论物理学家可以在自己的工作中快速探索、组合和再利用这些数据。(社会科学报社融媒体“思想工坊”出品 全文见社会科学报及官方网站)