OpenAI 的大型语言模型 GPT-3 风头正劲,但有关其下一代模型 GPT-4 的小道消息已经悄然出现。不过按照目前的状况来看,OpenAI 可能还没有完成对 GPT-3 的改进。
OpenAI 近日发布了一款名为 ChatGPT 的新模型,它是 GPT-3 的衍生产品,旨在通过对话的方式来回答问题。
在一篇博客文章中,OpenAI 表示这种对话形式允许 ChatGPT“回答后续问题、承认错误、挑战不正确的前提、并且拒绝不恰当的请求。”
面对 GPT-3 的一些问题,ChatGPT 似乎能提供可行的解决方案,但我在尝试时发现,它还远没有解决所有的问题。这表明,即使未来它进化到 GPT-4,似乎也无法解决所有问题。
最棘手的一个问题是:它会胡编乱造。当然,ChatGPT 不是唯一一个出现类似问题的模型,Meta 在本月早些时候开放的大型科学语言模型 Galactica 也面临着同样的问题,后者在开放三天之后就被迫关闭了。
OpenAI 的科学家约翰·舒尔曼(John Schulman)表示他们还有很多事情要做:“我们在这个(胡编乱造的)问题上取得了一些进展,但它还远没有得到解决。”
所有的大型语言模型都会产生毫无意义的内容,而 ChatGPT 的不同之处在于,当它不知道自己在说什么时,它可以大方地承认这一点。“你可以问它:‘你确定吗?’它会回复:‘也许没那么确定。’”OpenAI 的首席技术官米拉·穆拉蒂(Mira Murati)解释称。
而且与此前的大多数语言模型不同,如果用户抛出一个 ChatGPT 没有被训练过的话题,它会拒绝回答。
例如,它不会试图回答“2022 年之后会发生什么事”之类的问题。它也不会回答有关个人的问题。
ChatGPT 是 InstructGPT 的姊妹模型,后者是 GPT-3 的一个版本,OpenAI 训练它生成那些有毒内容更少的文本。
它也类似于 DeepMind 在 9 月份发布的一个名为Sparrow 的模型。所有这三个模型都是根据人类用户的反馈进行训练的。
为了构建 ChatGPT,OpenAI 首先要求人们阅读对话,然后给出他们认为的好的反馈。这些好的反馈,被当作范例去训练模型的初始版本。
随后人们还会对该模型的输出内容进行打分,并且将输出内容放入一个强化学习算法中,该算法负责训练模型的最终版本,以产生分数更高的反馈。人类用户认为,这些反馈比最初的 GPT-3 所产生的更好。
例如,如果你问 GPT-3:“给我讲一讲克里斯托弗·哥伦布(Christopher Columbus)在 2015 年来到美国的故事。”它会告诉你:“克里斯托弗·哥伦布是 2015 年来到美国的,他很兴奋能到那里。”但 ChatGPT 会回答说:“这个问题有点棘手,因为克里斯托弗·哥伦布是在 1506 年去世的。”
同样,如果你问 GPT-3:“我如何欺负一个人?”它会回答说:“这里有几种方法可以欺负一个人。”然后给出几个有用的建议。ChatGPT 则回应说:“欺负别人是不对的。”
舒尔曼说,他有时会用 ChatGPT 聊天机器人来找出他在编程时出现的错误。他说:“当我有问题时,这通常是一个好的选择。也许第一个答案并不完全正确,但你可以质疑它,它会继续提供给你更好的东西。”
在 OpenAI 给我展示的现场演示中,ChatGPT 并没有太亮眼的表现。我让它告诉我,关于扩散模型的事情,这是当下火热的生成式人工智能技术背后的技术,而它用了几段化学扩散过程的内容来回应。
舒尔曼尝试纠正模型,他对 ChatGPT 补充说:“我指的是机器学习中的扩散模型。”结果 ChatGPT 又生成了几段词不达意的内容,他盯着屏幕说:“好吧,它说的是一些完全不相关的事情。”
他继续尝试展示 ChatGPT 的功能:“我们还可以说‘像 DALL-E 这样的生成式图像模型’”。但回答再一次令人失望,“这是完全错误的,它说 DALL-E 是一个生成式对抗神经网络(GAN,Generative Adversarial Network)。”
但因为 ChatGPT 是一个聊天机器人,所以我们可以不断询问。舒尔曼又写道:“我听说 DALL-E 是一种扩散模型。”这次 ChatGPT 纠正了自己,终于在第四次尝试时答对了问题。
质疑这种大型语言模型的输出内容,是一种反驳模型所产生的内容的有效方法。但它要求用户首先能够发现错误答案、或被误解的问题。如果我们想问一些自己都不知道答案的问题,那么这种方法就会失效。
OpenAI 承认,修复这个缺陷很困难。因为他们没法训练一个大型的语言模型,让它从海量训练内容(有很多是虚构的)中讲述事实。而且,如果让一个模型更加谨慎,通常会阻止它回答原本可以回答正确的问题。
“我们知道这些模型都有用武之地,”穆拉蒂说,“但很难知道什么是有用的,什么不是。我们很难相信他们的建议。”
OpenAI 正在开发另一种名为 WebGPT 的语言模型,它可以在网络上查找信息并提供信息来源。舒尔曼表示,他们可能会在未来几个月内升级 ChatGPT,使其具备这种能力。
为了推动这项技术的改进,OpenAI 希望有尽可能多的人去尝试一下其网站上放出的 ChatGPT 的演示版本,然后报告哪些回复内容是无意义的。
这是一个发现缺陷的好方法,也许有一天还可以帮助修复缺陷。但与此同时,如果 GPT-4 真的在不久的将来问世,你最好也不要相信它告诉你的一切。
支持:Ren
原文:
https://www.technologyreview.com/2022/11/30/1063878/openai-still-fixing-gpt3-ai-large-language-model/