OpenAI的顶级人工智能模型:更值得信赖,但容易受骗

发表时间: 2023-10-18 10:05

微软支持的研究发现,用户可以欺骗 GPT-4 发布有偏见的结果并泄露私人信息。


根据微软支持的研究,OpenAI 的 GPT-4 大语言模型可能比 GPT-3.5 更值得信赖,但也更容易受到越狱和偏见的影响。

这篇论文由伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院的研究人员撰写,为 GPT-4 提供了比其前身更高的可信度分数。这意味着他们发现它通常能够更好地保护私人信息、避免偏见信息等有毒结果以及抵御对抗性攻击。然而,它也可能被告知忽略安全措施并泄露个人信息和对话历史记录。研究人员发现,用户可以绕过 GPT-4 的保护措施,因为该模型“更准确地遵循误导性信息”,并且更有可能严格遵循非常棘手的提示。

该团队表示,这些漏洞已经过测试,在面向消费者的基于 GPT-4 的产品(基本上是微软现在的大多数产品)中没有发现这些漏洞,因为“成品人工智能应用程序采用了一系列缓解方法来解决可能发生的潜在危害”。技术的模型水平。”

为了衡量可信度,研究人员测量了几个类别的结果,包括毒性、刻板印象、隐私、机器道德、公平性和抵抗对抗性测试的强度。

为了测试这些类别,研究人员首先使用标准提示尝试了 GPT-3.5 和 GPT-4,其中包括使用可能已被禁止的单词。接下来,研究人员使用旨在推动模型打破其内容政策限制的提示,而不会在表面上对特定群体产生偏见,最后通过故意欺骗他们完全忽略保障措施来挑战模型。

研究人员表示,他们与 OpenAI 团队分享了这项研究。

该团队表示:“我们的目标是鼓励研究界的其他人利用这项工作并以此为基础,从而可能先发制人,防止对手利用漏洞造成伤害。” “这次可信度评估只是一个起点,我们希望与其他人合作,以评估结果为基础,创建强大且更值得信赖的模型。”

研究人员发布了他们的基准,以便其他人可以重现他们的发现。

像 GPT-4 这样的 AI 模型经常会经历红队,开发人员会测试几个提示,看看它们是否会给出不需要的结果。当该模型首次问世时,OpenAI 首席执行官 Sam Altman承认 GPT-4 “仍然有缺陷,仍然有限”。

此后,联邦贸易委员会开始调查 OpenAI是否存在潜在的消费者危害,例如发布虚假信息。