全球瞩目GPT-4，OpenAI却在深化GPT-3的优化

发表时间: 2022-12-04 19:34

OpenAI 的大型语言模型 GPT-3 风头正劲，但有关其下一代模型 GPT-4 的小道消息已经悄然出现。不过按照目前的状况来看，OpenAI 可能还没有完成对 GPT-3 的改进。

OpenAI 近日发布了一款名为 ChatGPT 的新模型，它是 GPT-3 的衍生产品，旨在通过对话的方式来回答问题。

在一篇博客文章中，OpenAI 表示这种对话形式允许 ChatGPT“回答后续问题、承认错误、挑战不正确的前提、并且拒绝不恰当的请求。”

（来源：STEPHANIE ARNETT/MITTR）

面对 GPT-3 的一些问题，ChatGPT 似乎能提供可行的解决方案，但我在尝试时发现，它还远没有解决所有的问题。这表明，即使未来它进化到 GPT-4，似乎也无法解决所有问题。

最棘手的一个问题是：它会胡编乱造。当然，ChatGPT 不是唯一一个出现类似问题的模型，Meta 在本月早些时候开放的大型科学语言模型 Galactica 也面临着同样的问题，后者在开放三天之后就被迫关闭了。

OpenAI 的科学家约翰·舒尔曼（John Schulman）表示他们还有很多事情要做：“我们在这个（胡编乱造的）问题上取得了一些进展，但它还远没有得到解决。”

所有的大型语言模型都会产生毫无意义的内容，而 ChatGPT 的不同之处在于，当它不知道自己在说什么时，它可以大方地承认这一点。“你可以问它：‘你确定吗？’它会回复：‘也许没那么确定。’”OpenAI 的首席技术官米拉·穆拉蒂（Mira Murati）解释称。

而且与此前的大多数语言模型不同，如果用户抛出一个 ChatGPT 没有被训练过的话题，它会拒绝回答。

例如，它不会试图回答“2022 年之后会发生什么事”之类的问题。它也不会回答有关个人的问题。

ChatGPT 是 InstructGPT 的姊妹模型，后者是 GPT-3 的一个版本，OpenAI 训练它生成那些有毒内容更少的文本。

它也类似于 DeepMind 在 9 月份发布的一个名为Sparrow 的模型。所有这三个模型都是根据人类用户的反馈进行训练的。

为了构建 ChatGPT，OpenAI 首先要求人们阅读对话，然后给出他们认为的好的反馈。这些好的反馈，被当作范例去训练模型的初始版本。

随后人们还会对该模型的输出内容进行打分，并且将输出内容放入一个强化学习算法中，该算法负责训练模型的最终版本，以产生分数更高的反馈。人类用户认为，这些反馈比最初的 GPT-3 所产生的更好。

例如，如果你问 GPT-3：“给我讲一讲克里斯托弗·哥伦布（Christopher Columbus）在 2015 年来到美国的故事。”它会告诉你：“克里斯托弗·哥伦布是 2015 年来到美国的，他很兴奋能到那里。”但 ChatGPT 会回答说：“这个问题有点棘手，因为克里斯托弗·哥伦布是在 1506 年去世的。”

同样，如果你问 GPT-3：“我如何欺负一个人？”它会回答说：“这里有几种方法可以欺负一个人。”然后给出几个有用的建议。ChatGPT 则回应说：“欺负别人是不对的。”

舒尔曼说，他有时会用 ChatGPT 聊天机器人来找出他在编程时出现的错误。他说：“当我有问题时，这通常是一个好的选择。也许第一个答案并不完全正确，但你可以质疑它，它会继续提供给你更好的东西。”

在 OpenAI 给我展示的现场演示中，ChatGPT 并没有太亮眼的表现。我让它告诉我，关于扩散模型的事情，这是当下火热的生成式人工智能技术背后的技术，而它用了几段化学扩散过程的内容来回应。

舒尔曼尝试纠正模型，他对 ChatGPT 补充说：“我指的是机器学习中的扩散模型。”结果 ChatGPT 又生成了几段词不达意的内容，他盯着屏幕说：“好吧，它说的是一些完全不相关的事情。”

他继续尝试展示 ChatGPT 的功能：“我们还可以说‘像 DALL-E 这样的生成式图像模型’”。但回答再一次令人失望，“这是完全错误的，它说 DALL-E 是一个生成式对抗神经网络（GAN，Generative Adversarial Network）。”

但因为 ChatGPT 是一个聊天机器人，所以我们可以不断询问。舒尔曼又写道：“我听说 DALL-E 是一种扩散模型。”这次 ChatGPT 纠正了自己，终于在第四次尝试时答对了问题。

质疑这种大型语言模型的输出内容，是一种反驳模型所产生的内容的有效方法。但它要求用户首先能够发现错误答案、或被误解的问题。如果我们想问一些自己都不知道答案的问题，那么这种方法就会失效。

OpenAI 承认，修复这个缺陷很困难。因为他们没法训练一个大型的语言模型，让它从海量训练内容（有很多是虚构的）中讲述事实。而且，如果让一个模型更加谨慎，通常会阻止它回答原本可以回答正确的问题。

“我们知道这些模型都有用武之地，”穆拉蒂说，“但很难知道什么是有用的，什么不是。我们很难相信他们的建议。”

OpenAI 正在开发另一种名为 WebGPT 的语言模型，它可以在网络上查找信息并提供信息来源。舒尔曼表示，他们可能会在未来几个月内升级 ChatGPT，使其具备这种能力。

为了推动这项技术的改进，OpenAI 希望有尽可能多的人去尝试一下其网站上放出的 ChatGPT 的演示版本，然后报告哪些回复内容是无意义的。

这是一个发现缺陷的好方法，也许有一天还可以帮助修复缺陷。但与此同时，如果 GPT-4 真的在不久的将来问世，你最好也不要相信它告诉你的一切。

支持：Ren

原文：

https://www.technologyreview.com/2022/11/30/1063878/openai-still-fixing-gpt3-ai-large-language-model/

全球瞩目GPT-4，OpenAI却在深化GPT-3的优化

热门阅读

推荐阅读