怎样判定生成式语言大模型会否“一本正经地胡说八道”?如何知道自动驾驶系统能够抵抗得住外界恶意攻击?功能强大的AI(人工智能)大模型也需要“健康检测”,以确保其准确性、抗攻击性及安全性。
6月8日,上海首家生成式人工智能(AIGC)质量检验检测中心挂牌批筹,为AI大模型等智能软件提供专业化“体检”。挂牌两个月来,这家AI质检中心已出具75份“体检报告”。
在AI质检火爆的背后,折射出整个产业对于行业质量规范的渴求。尽管目前AI检测尚属于企业自主行为,但未来对于大模型安全性、可解释性、伦理风险的检测检验,将会形成国家强制标准。上海这一探索将在检测与标准同步发展的新模式下,对生成式AI产业的规范与引领产生积极影响。
给ChatGPT做测评,为AI系统“质量保障”探路
走进上海市北高新区区块链谷,筹建中的上海生成式人工智能质检中心里,一台台电脑中正奔跑着AI“体检”软件。
今年,ChatGPT带动了生成式人工智能应用的火爆。我国迄今已推出上百个大模型,如何客观地评价、比较大语言模型及其他AIGC模型的性能,成为大模型应用的关键一环。
上海计算机软件技术开发中心主任蔡立志介绍,软件中心是上海科学院的直属单位,作为一家长期以为网络安全保驾护航为使命的研究机构,从2016年起就关注人工智能的安全问题,迄今已开展了2000多项AI检测业务。
在多年技术与行业经验积累的基础上,经过近两年的准备,上海市生成式人工智能质检中心于两个月前在软件中心正式挂牌批筹。“挂牌后不久,我们就给ChatGPT做了一次测评。”上海计算机软件技术开发中心软件工程研究所副所长陈敏刚博士透露,测评的确可以对生成式语言大模型的推理、抗幻觉、理解用户意图等能力,进行客观评价。
蔡立志介绍,质检中心主要面向生成式人工智能所涉及的计算机视觉、自然语言处理、内容生成等领域,聚焦人工智能生成内容语义表达能力、逻辑推理能力、合成内容鉴别,以及功能、性能、安全性评估等,“通过提供全方位的测评服务,以保障人工智能系统或应用的质量”。
AI“体检”火爆,“守底线”更要引领产业
随着大模型技术的快速进步,在人工智能应用不断深入的同时,利用AI换脸、合成语音进行传播虚假信息、行骗等危害社会的现象也不断发生。
7月10日,国家网信办等七部委联合发文《生成式人工智能服务管理暂行办法》,明确了AIGC服务提供者的责任,包括信息源可信责任、生成内容合法合规责任、申报安全评估及算法备案责任。
“管理办法的落地,需要专业的第三方机构提供AI质量检验检测服务。”蔡立志透露,质检中心去年筹建期间已完成300多个AI质检项目,“正式挂牌仅两个月,就已出具75份相关检测报告”。
由此可见,为AI做“体检”的需求有多火爆。事实上,这项工作本身就是一项含金量极高的技术活儿。上海计算机软件技术开发中心副主任宋俊典告诉记者,对于一些大型复杂AI系统的检测,甚至需要根据应用场景专门搭建检测检验系统,耗时可能长达半年,同时还需要研发大量相关技术与标准。近三年来,上海软件中心为上海乃至长三角地区人工智能企业与应用方提供专业的第三方测评服务数年均超过500项,累计发布AI检测相关标准30余项。
“对于AI的质量检测,只有好与差之分,没有对与错的判断。”宋俊典解释,通过质检,厂商能更清晰地了解AI软件的性能,对产品的迭代与优化更有针对性。
检测检验是行业话语权的重要标志,检测标准往往是一个行业的发展风向标。然而,对于人工智能这个飞速发展的领域,蔡立志认为,不能简单套用传统产业“先立标准后检测”的“守底线”模式,而应采用检测与标准同步发展的新型模式,以起到规范、引领产业的作用。
据悉,目前AI检测尚属于企业自主行为,未来对于大模型的安全性、可解释性、伦理风险的检测检验,可能会形成国家强制标准。
作者:许琦敏
编辑:范菁