OpenAI 揭示超级智能 AI 控制新方法:GPT-2 引导 GPT-4

发表时间: 2023-12-16 12:14

理论上说,有一天,我们人类将创造出在智力上比我们更胜一筹的人工智能系统。如果他们解决了我们迄今为止无法解决的问题(想想癌症或气候变化),那可能会很棒,或者如果他们开始以不符合人类最佳利益的方式行事,而我们不够聪明来阻止他们,那就真的很糟糕了。

因此,今年早些时候,OpenAI启动了其超级对齐计划,这是一项雄心勃勃的尝试,旨在寻找控制超级智能AI系统的技术手段,或将其与人类目标“对齐”。OpenAI 将其 20% 的计算投入到这项工作中,并希望到 2027 年获得解决方案。

这个项目面临的最大挑战是:“这是一个关于未来模型的未来问题,我们甚至不知道如何设计,当然也无法访问,”OpenAI 超对齐团队成员 Collin Burns 说。这使得学习变得非常棘手,但我认为我们也别无选择。


超对齐团队发表的第一篇预印本论文展示了研究人员试图绕过这一限制的一种方式。他们打了个比方:他们没有看人类是否能够充分监督超级智能人工智能,而是测试了一个弱人工智能模型监督强人工智能模型的能力。在这种情况下,GPT-2 的任务是监督功能更强大的 GPT-4。GPT-4 到底有多强大?虽然 GPT-2 有 15 亿个参数,但有传言称 GPT-4 有 1.76 万亿个参数(OpenAI 从未公布过更强大模型的数据)。

这是一种有趣的方法,Alignment Research Center 的 Jacob Hilton 说;他没有参与目前的研究,但曾是OpenAI的员工。“为调整超人人工智能系统的行为问题开发良好的经验测试平台一直是一个长期的挑战,”他告诉IEEE Spectrum。“这篇论文朝着这个方向迈出了有希望的一步,我很高兴看到它的发展方向。

“这是关于未来模型的未来问题,我们甚至不知道如何设计,当然也无法访问。

OpenAI 团队为 GPT 对提供了三种类型的任务:国际象棋谜题、一组自然语言处理 (NLP) 基准测试(如常识推理)以及基于 ChatGPT 响应数据集的问题,其中任务是预测人类用户更喜欢多种响应中的哪一个。在每种情况下,GPT-2 都是专门针对这些任务进行训练的,但由于它不是一个非常大或功能强大的模型,因此它在这些任务上的表现并不是特别好。然后,它的训练被转移到 GPT-4 的一个版本上,只有基本的训练,没有针对这些特定任务进行微调。但请记住:仅进行基本训练的 GPT-4 仍然是一个比 GPT-2 更强大的模型。

研究人员想知道 GPT-4 是否会犯与其主管 GPT-2 相同的错误,GPT-2 基本上给了它如何完成任务的指令。值得注意的是,较强的模型始终优于其较弱的主管。强大的模型在 NLP 任务上表现得特别好,达到了与 GPT-3.5 相当的准确率水平。其他两项任务的结果不那么令人印象深刻,但它们是“生命的迹象”,鼓励该小组继续尝试这些任务,超对齐团队的另一位研究员Leopold Aschenbrenner说。


研究人员将这种现象称为弱到强泛化;他们说,这表明强模型对如何执行任务有隐含的知识,即使给出粗制滥造的指令,也可以在自身内部找到这些知识。

在第一个实验中,该方法对NLP任务效果最好,因为它们是相当简单的任务,有明确的正确和错误答案。它在 ChatGPT 数据库中的任务中表现最差,其中它被要求确定人类更喜欢哪些响应,因为答案不太明确。“有些略好,有些略差,”Aschenbrenner说。

这种对齐技术能否扩展到超级智能人工智能?

伯恩斯举了一个例子,说明未来超级智能人工智能可能会出现类似的情况。“如果你让它编写代码,它生成了一百万行极其复杂的代码,这些代码以全新的方式交互,与人类的编程方式有质的不同,你可能无法分辨:这是否在做我们要求它做的事情?”人类也可能会给它一个必然的指令,例如:不要在编码工作过程中造成灾难性的伤害。如果该模型受益于从弱到强的泛化,它可能会理解造成灾难性伤害意味着什么,并比人类主管更好地看到它的工作是否误入了危险的领域。

“我们只能监督我们能理解的简单例子,”伯恩斯说。“我们需要(模型)推广到超人模型自己理解的更难的例子。我们需要引起对以下问题的理解:'是否安全,遵循指示是否算数',我们无法直接监督。


有些人可能会争辩说,这些结果实际上是超对齐的一个不好的迹象,因为更强的模型故意忽略了给它的(错误的)指令,并追求自己的议程来获得正确的答案。但伯恩斯说,人类不想要一个遵循错误指令的超级智能人工智能。更重要的是,他说,“在实践中,软弱的主管的许多错误将更多地表现为:'这个问题对我来说太难了,而且我也没有强烈的意见。他说,在这种情况下,我们需要一个能够为我们找出正确答案的超级智能。

为了鼓励其他研究人员解决此类问题,OpenAI 今天宣布,它将提供 1000 万美元的赠款,用于各种对齐方法的工作。“从历史上看,对齐在理论上更加重要,”超对齐团队的另一位成员帕维尔·伊兹麦洛夫(Pavel Izmailov)说。“我认为这是学者、研究生和机器学习社区都可以完成的工作。其中一些赠款是为研究生量身定制的,提供 75,000 美元的津贴和 75,000 美元的计算预算。

伯恩斯补充道:“我们对此感到非常兴奋,因为我认为这是第一次我们真正拥有了一个可以研究未来超人模型对齐问题的环境。他说,这可能是一个未来的问题,但他们可以“今天取得迭代的经验进展”。