Meta推出革命性AI音频工具:真人音频与AIGC音频鉴别神器

发表时间: 2024-06-19 18:19

Meta 创建了一个新系统,可以在人工智能生成的音频片段中嵌入名为“水印”的隐藏信号,有助于在网络上检测人工智能生成的内容。


该工具名为 AudioSeal,它可以在长达一小时的播客中找到哪些音频片段可能是由人工智能生成的。这是第一个能实现该功能的工具。


Meta 的研究科学家哈迪·埃尔萨哈尔(Hady Elsahar)表示,它可以帮助解决语音克隆工具带来的日益严重的错误信息和骗局问题。


我们已经看到,骗子使用生成式人工智能创建了乔·拜登(Joe Biden)总统的深度伪造音频,还有人使用深度伪造勒索受害者。理论上,水印技术可以帮助社交媒体检测和删除这些内容。


然而,也有一些问题需要注意。Meta 表示,它还没有计划将水印应用于使用其工具创建的人工智能生成的音频中。


音频水印技术尚未被广泛采用,也没有达成一致的行业标准。人工智能生成内容中的水印往往很容易被篡改、删除或伪造。


埃尔萨哈尔说,快速检测和精确定位音频文件中哪些元素是人工智能生成的,可以让检测系统更好地发挥作用。


他说,该团队在检测水印时实现了 90% 到 100% 的准确率,比之前尝试的结果要好得多。


(来源:STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | PUBLIC DOMAIN)


AudioSeal 在 GitHub 上免费开源。任何人都可以下载它,并使用它为人工智能生成的音频添加水印。它最终可以“依附”在人工智能音频生成模型之上,从而自动应用于使用它们生成的任何音频。


开发它的研究人员将于 2024 年 7 月在奥地利维也纳举行的国际机器学习会议(ICML,International Conference on Machine Learning)上介绍他们的工作。


AudioSeal 是使用两个神经网络创建的。一个用于生成可以嵌入到音轨中的水印信号。这些信号是人耳无法察觉的,但可以使用另一个神经网络快速检测到。


目前,如果你想在更长的音频片段中发现人工智能生成的痕迹,你必须将整个音频分成许多个几秒长的片段,看看其中是否有水印。


这是一个缓慢而费力的过程,无法用于那些包含了数百万分钟语音的社交媒体。


AudioSeal 的工作方式不同。通过在整个音轨的每个部分嵌入水印,水印被“本地化”了。这意味着即使音频被裁剪或编辑,水印仍然可以被检测到。


芝加哥大学计算机科学教授 Ben Zhao 说,这种能力和接近完美的检测精度使 AudioSeal 比他以前见过的任何音频水印系统都要好。


非营利组织 Partnership on AI 的人工智能和媒体诚信负责人克莱尔·莱博维茨(Claire Leibowicz)表示:“探索提高水印技术水平的研究是有意义的,尤其是在语音等媒介中。这些媒介通常比视觉内容更难标记和检测。”


但是,在大规模采用这些音频水印之前,还需要克服一些主要缺陷。


Meta 的研究人员测试了不同的攻击来去除水印,最终发现关于水印算法的信息披露得越多,它就越容易受到攻击。该系统还要求人们自愿将水印添加到他们的音频文件中。


Zhao 说,这给工具带来了一些基本的限制。他说:“如果攻击者拿到了水印检测器,它就会变得非常脆弱。”这意味着只有 Meta 才能验证音频内容是否是人工智能生成的。


莱博维茨表示,尽管水印作为一种解决方案在科技行业很受欢迎,但她仍然不相信水印实际上会增强公众对他们所看到或听到的信息的信任。这在一定程度上是因为他们很容易受到欺骗。


她补充道:“面对伪造内容,我怀疑任何水印系统的鲁棒性。”


作者简介:梅丽莎·海基莱(Melissa Heikkilä)是《麻省理工科技评论》的资深记者,她着重报道人工智能及其如何改变我们的社会。此前,她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作,并曾担任新闻主播。


支持:Ren


运营/排版:何晨龙