科创新篇章:AI for Science——科学界的新风暴

发表时间: 2024-05-28 09:30

来源:【四川日报-川观新闻】

位于中国核动力研究设计院的核工业人工智能前沿科技创新工作室(图片由受访者提供)

川观新闻记者 高杲

2019年初的一个晚上,一则消息引起了刘东的注意。消息的内容是:有科学家通过人工智能求解了基础的微分方程。这让刘东彻夜难眠。

刘东是中国核动力研究设计院的研究员级高级工程师,大半辈子和科学计算打交道。看到这则消息后,他脑海里闪现出一个念头:一场科学领域变革即将到来。当天夜里,他不断查阅资料,了解相关情况,琢磨着如何把人工智能运用到核工业研究领域。

几个月前,大洋彼岸,一场蛋白质结构预测大赛悄然打响,首次代表人工智能参赛的“阿尔法折叠”(Alpha Fold),成功对43种蛋白质中的25种结构进行了预测,力压其他97名参赛者,成为本次大赛冠军。第二名仅仅预测了3种蛋白质结构。

这是人工智能驱动的科学研究AI for Science涌现的前夜。此前两年,科学家尝试将机器学习等人工智能工具用于科学问题求解中,AI for Science的概念开始萌芽。

几年间,AI for Science从概念走向现实,成为全球人工智能新前沿。从求解薛定谔方程到加速分子模拟,从预测蛋白质结构到赋能药物设计……一大批优秀应用加速涌现,不仅提高了科学研究的速度和准确性,也探索出更广阔的可能性空间。

一场科技革命“奇点”正在到来,将带来什么变化?四川有哪些探索?未来的挑战和机遇又在哪里?

展示出具备突破瓶颈的巨大潜力

你一定听过爱迪生的故事。

100多年前,美国物理学家爱迪生尝试上千种材料作为灯丝,凭借不断试错方法以及永不言弃的精神,最终研发出电灯。这盏散发着“光”的电灯,点亮了后来者的科研之路,成为科学研究中的重要方法——爱迪生试错法。

随着科学进步和现代社会发展,科研工作者面对研究对象越来越复杂,如果像爱迪生试验灯丝一样,运用“试错法”,逐一替换元素,将会遇到巨大困难。

生物学中的“蛋白质折叠问题”就是其中之一。所谓“蛋白质折叠问题”,是科学家发现蛋白质的三维结构各不相同,它的功能差异由这些不同的结构决定,于是提出一个假设:如果人类充分了解蛋白质的三维结构,就可以按图索骥,寻找甚至创造自己所需的蛋白质。

“蛋白质折叠问题”研究价值巨大,引来了无数科研工作者尝试,但都收效甚微。究其原因,是因为与蛋白质庞大的种类量相比,人们用实验探索蛋白质结构的努力只能算是杯水车薪。

直到AI for Science的出现,解决了这个困扰人类长达50年之久的难题。

2020年,经过升级迭代的“阿尔法折叠”在第14届蛋白质结构预测关键评估大赛中,取得了总分92.4/100的成绩,意味着计算生物学几乎获得了与实验室方法精确度相当的蛋白质结构预测结果。2021年,“阿尔法折叠”所在的企业“深层思维”(DeepMind)发布了“阿尔法折叠”蛋白质结构数据库,对98.5%的人类蛋白质结构进行了准确预测。2022年7月,“深层思维”宣布,基于UniProt数据库序列,“阿尔法折叠”预测出约100万个物种的2亿多个蛋白质结构,几乎涵盖了所有科学已知的蛋白质,相关研究成果发表在《自然》杂志上。

这一消息让世界震惊,因为它不仅为生物学发展做出了卓越贡献,也让人们看到了AI for Science的飞速发展以及它所带来的无限可能。

事实上,不只是生物领域,AI for Science还在多个科学研究领域,展示出具备突破瓶颈的巨大潜力。

在气象领域,一款大模型提前几天预测天气情况,预测速度是传统数值预测方法的上万倍;

在天文领域,计算机视觉等技术协助世界最大的射电天文望远镜——中国天眼FAST,找到了两例快速射电暴,帮助人类更好理解宇宙的起源;

在医学领域,智能算法等工具让仅凭一滴血预知痴呆变为可能,未来通过血浆的蛋白检测,人类可提前15年预知痴呆发病风险;

在考古领域,三个大学生利用机器学习等手段,破译了近2000年前碳化的赫库兰尼姆纸莎草卷(俗称“上古卷轴”),登上《自然》杂志……

与此同时,从生命科学领域,到化工领域,到材料科学,一大批工具加速涌现,为科学研究未来带来了更多可能。

AI for Science发展如火如荼,一系列政策利好也在同步释放。今年1月,国家数据局等17个部门对外发布《“数据要素×”三年行动计划(2024—2026年)》,其中提出将实施“数据要素×科技创新”重点行动,将聚焦生物育种、新材料创制、药物研发等领域,以数智融合加速技术创新和产业升级。更早之前,2023年3月,科技部会同自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,布局“人工智能驱动的科学研究”前沿科技研发体系……

工具的涌现、技术的升级、政策的落地,让人们对AI for Science未来充满期待。

“人工智能的光将照入更多的未知领域。”刘东表示,当我们以AI for Science的视角,去重新审视以前被学界定义为“无法攻克”的难题时,会发现有更多的可能性。

提升科学研究的速度广度深度

AI for Science席卷而来,带来科学研究的重构和新一轮科技革命。在四川,一大批科研工作者前赴后继,积极投身到这项实践中,用自己的探索,推动科学研究的进展。

他们中,有人通过AI for Science,提升了科学研究的速度。

在四川大学高分子科学与工程学院SOFT-AI实验室里,大量的瓶瓶罐罐的实验工具被人工智能“取代”,科研人员只需要在一款名为Lang2Sim仿真系统中输入:什么材料适合制作超轻超强的粒子超材料?很快,系统就会给出答案。

“过去,我们要设计一款特定性能材料,用的是‘试错法’。”该实验室负责人刘晗表示,这种传统方法,通过改变材料成分、合成手段、工艺参数等条件制作系列样本,选出其中性能最合适的材料。

但弊端也很明显,需要进行大量的实验,研发周期长不说,耗费人力物力巨大,还存在一定的偶然性。“现在,几天就能完成过去几个月甚至几年的工作。”刘晗说,通过大数据与人工智能技术,可实现材料的快速筛选和材料数据积累,大幅提升了新材料研发效率,促进工程化应用。

他们中,有人通过AI for Science,拓宽科学研究的广度。

“未来几天,全球哪里会发生山洪灾害?问我不一定清楚,问它一定清楚。”在中国科学院成都山地灾害与环境研究所的山地灾害与地表过程重点实验室,实验室负责人欧阳朝军向我们介绍他的“新助手”——ED-DLSTM。

作为一款新径流洪水预测模型,ED-DLSTM掌控了全球2000多个水文站数据,能够快速预测未来1天到5天全球的山洪灾害。“未来,它还可以用于解决缺资料地区甚至无资料地区的径流和洪水预测。”欧阳朝军说。

他们中,还有人通过AI for Science,探寻科学研究的深度。

“看,那里颜色比较亮,说明中子的分布比较多。”中国核动力研究设计院的核工业人工智能前沿科技创新工作室,研究人员正对着核反应堆进行模拟运行,这一切源于人工智能对于高维复杂空间数据建模与方程求解。

刘东告诉记者,对于反应堆物理扩散方程、中子输运方程这样复杂的高维的方程,过去的办法往往需要拆分成若干个低维方程,虽然也能求解,但结果往往和真实答案有一定的误差。“通过深度学习可以进行有效拟合逼近,能对复杂方程、海量数据的高效模拟,实现尺度和精度平衡,得到的答案精度也更高,对于核反应堆的设计和运行支撑将提供很大的帮助。”

除了单点突破,AI for Science还促进了学科间交叉创新。医工交叉深入融合是其中一个例子。“人工智能和脑科学正在双向奔赴。”电子科技大学信息与通信工程学院教授张帆表示,一方面,人工智能为脑科学研究提供仿真模拟手段、系统与平台,帮助挖掘大脑潜能,另一方面,脑科学为人工智能提供生理学原理、数据、机制等,启发更具通用性和自主性的人工智能新模态。

遵循一条曲折前进、螺旋上升的发展路径

人们惊讶于AI for Science的出色表现之余,也不由得想要知道:人工智能会是科学发展的未来么?或者说,在可以预见的时间里,人工智能是否可以独立进行科学研究,并且做出有价值的成果?

这一问题现在并没有明确答案。

从现实角度讲,AI for Science虽然高效,但并非万能,依旧面临着诸多难题亟需解决,更多扮演一个工具的角色。但以发展的眼光看,人工智能不断增长的逻辑推理能力,以及发现和验证新知识的能力,让人们有了更多期待,进行独立研究并非天方夜谭。“几年前,谁会想到代码可以自己写啊,未来总是充满变数。”张帆说。

不管未来将走向何方?但科研工作者明白:如同此前任何一次科技革命一样,AI for Science的前行之路并非一蹴而就,而是遵循一条曲折前进、螺旋上升的发展路径。

该如何走?

首先,要直面问题。不少受访者表示,高质量的数据获取,算法的可解释性是目前AI for Science面对的最大难题。

“不同于计算机视觉和自然语言处理等领域拥有大量高质量的数据,科学领域中高质量的带标注的数据获取非常困难。”中国核动力研究设计院的科研人员罗能以核反应堆关键设备检测举例,这些设备大多处于高温高压和高辐射的环境中,在运行过程时,人员无法进入到反应堆厂房内,只能通过有限的耐高温、耐高压和耐辐照的特种传感器对设备的状态参数进行捕获,但设备可探测的状态参数类型有限,无法建立对设备全方位的认知。“如何让人工智能学习小样本的故障机理,识别没见过的故障类型,还有很长一段路要走。”

除了数据获取难,实现数据质量的统一同样不易。例如,张帆提到一个不容忽视的细节,在医学影像领域,不同设备获得的数据可能并不一致,这导致AI模型训练数据和测试数据分布会有偏差,在真实应用落地中,会降低模型的有效性。

此外,算法的可解释性备受关注。一些受访者提到,科学的目标是理解物理世界的规律,发现和解释科学现象,将“黑盒”变成“白盒”,但人工智能往往只给出答案,无法系统地解释模型的决策过程、判断标准和推理结果。

“Sora已经非常成熟,但依旧会出现老奶奶吹蜡烛火苗却不动的常识性错误,这说明物理规律还没有转化为AI模型约束和指导。”刘晗表示,在科学研究中,理解模型的工作机制至关重要。“如果只是给一个答案,怎么判断这个答案是否正确。”

其次是建强基础。“发展AI for Science,要推动走向‘平台科研’模式,需要解决不同科研领域的共性问题。”中国科学院院士、北京大学国际机器学习研究中心主任鄂维南在此前的采访中表示,这需要共建基础设施,搭建“四梁”,具体来看,包括基本原理与数据驱动的算法模型与软件、高精度高效率的实验表征方法、替代文献的数据库与知识库、高度整合的算力平台。此外,还要以基础设施为支撑,赋能工业应用的实际场景,即“N柱”,将在材料科学、能源化工、航空航天、药物研发等方向上带来巨大变革。

最后是树立价值。“既要加快进度,也要防止跑偏。”一些受访者提到,在与人工智能打交道中,要注重人机相互之间的伦理门槛等问题。“我们设计培养的人工智能应该是友善的、能与人沟通的,这样才能发挥科技变革的优势。”

关于AI for Science的未来,还有很多想法在萌芽。在刘东的设想中,AI for Science不再只停留在先行者的领域,也不再拘泥于科研工作者的手上,会有更多的人加入科研革命中。在刘晗的想象中,未来会有三类科研工作者,分别是“数字人科学家”“机器人科学家”以及“生物人科学家”。

名词解释

AI for Science

即人工智能驱动的科学研究,是以“机器学习为代表的人工智能技术”与“科学研究”深度融合的产物。2023年3月,科技部会同自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,紧密结合数学、物理、化学、天文等基础学科关键问题,围绕药物研发、基因研究、生物育种、新材料研发等重点领域科研需求展开,布局“人工智能驱动的科学研究”前沿科技研发体系。

本文来自【四川日报-川观新闻】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

ID:jrtt