揭秘OpenAI大模型的发展历程

发表时间: 2024-05-30 13:59

编者按:随着前不久Ilya Sutskever 从 OpenAI 的离职,OpenAI首席架构师和著名强化学习(Reinforcement Learning, 或RL)专家John Schulman博士成为OpenAI 现存最主要具有技术背景的创始人。最近,Schulman博士接受了著名的科技播客主持人 Dwarkesh Patel 的专访。他解密了OpenAI 大模型发展史,介绍了OpenAI怎样训练和产品化大模型,尤其是后训练阶段如何通过RL提升大模型的泛化能力和实用性。Schulman分享了他对大模型收缩律(Scaling Law) ,大模型的推理能力,大模型强化学习,未来大模型AI与人类的协作,以及大模型安全和对齐等问题的理解。此外,Schulman还讨论了多模态数据处理、用户界面设计、模型泛化能力等话题。他预测未来五年大模型AI的显著进步会使得他的工作被取代。特别是Schulman 博士回答了下面的一些有趣的问题:

  • OpenAI 是怎么训练大模型的?预训练(Pre-trainig)和后训练(Post-Training) 对大模型能力的提升各起什么作用?GPT-4是因为什么原因才使其Elo-分远远高于之前的模型?为什么他觉得现在OpenAI 内部算力分配很不合理?

  • OpenAI 最初大模型服务的产品形态都有哪些?什么时候OpenAI将对话机器人 (即ChatGPT) 作为大模型产品的主要形态?为什么最后将网页浏览功能从ChatGPT中赐除?

  • 大模型的什么问题让他非常兴奋?是什么时候他的团队将研究方向彻底转向大模型?

  • 大模型伸缩率 (Scaling Law) 怎样解释?模型规模对智能的体现有什么影响?为什么模型越大,样本效率越高?

  • 大模型也会有工具收敛 (Instrumental Convergence) 现象吗?

  • 接下来大模型的能力在什么方面会有突破?大模型是否会更有能力从错误中恢复或处理边角问题?大模型有驱动力和目标吗?大模型看似具备的推理能力是怎样获得的?

  • 对于强化学习 (RL),奖赏 (Reward) 是否足够了 (Is Reward Enough?)

  • 强化学习很复杂,做好强化学习的研究需具备怎么样的特质?在大模型强化学习研究中,经验方法或第一原理哪个更重要?

  • 当今的各个大模型为什么看起来都是千篇一律?大模型回答结果的单调、正式和冗长等问题是什么因素造成的?是因为RLHF (基于人工反馈的强化学习) ,数据标注,还是损失函数?

  • 大模型的竞争护城河 (Moat) 是什么?

  • 人在大模型AI应用中扮演什么角色?AI 取代人类工作,比如运营一家公司,的条件是什么?像RLHF这样的技术将在其中扮演怎样的角色?

  • OpenAI 即将发布的Model Spec 是一个什么文件?

  • 上下文长度 (Context Length) 是否是大模型推理任务的瓶颈?

  • 大模型发展到GPT-4 是否快到顶了?现在大模型的发展碰到数据墙(Data Wall) 了吗?

  • 算力对大模型 AI 发展的影响体现在哪些方面?GPT-5 在学习能力和规模上有什么值得期待?对于今后GPT-6 或 GPT-7 级别的模型, 我们是需要给它们更多的书面指示,还是需要对他们设置一些潜在偏好?

  • 大模型研究的下一步方向是什么?是基于更多多模态数据来训练更好的模型,还是基于长程强化学习,使得大模型作为智能体来更好的集成工作流?

  • 怎么看待公众对目前 AI 特别是大模型研究和文献的抱怨?

通过这篇访谈,我们得以一窥AI领域的工程前沿现状。这将引发我们对于人工智能未来影响的思考,以及让我们考量如何准备迎接这一变革。

这是我和OpenAI联合创始人兼首席架构师John Schulman的一集节目。

我们讨论了:

  • 预训练、后训练以及未来的能力

  • 2025年通用人工智能计划

  • 教会模型推理

  • 通往ChatGPT的道路

  • 成为一名优秀的强化学习研究员的要素

  • 保持人类参与

  • 研究现状、平台期和护城河


预训练、后训练以及未来的能力

Dwarkesh:今天我有幸与John Schulman交谈,他是OpenAI的联合创始人之一,领导着这里的后训练团队。他还领导了ChatGPT的创建,并是许多在AI和RL领域最重要、引用最广泛的论文的作者,包括PPO等。John,很高兴能和你聊天。感谢你来参加播客。

Schulman:感谢邀请我参加播客。我是你的忠实粉丝。

Dwarkesh:谢谢你这么说。这是我的第一个问题。我们有预训练和后训练之间的区别。让我们超越损失函数和训练机制实际发生的事情。从概念上退一步,预训练到底创造了什么样的东西?后训练又在此基础上做了什么?

Schulman在预训练中,你基本上是在训练模仿互联网或网络上的所有内容,包括网站和代码等。所以你得到的模型可以生成看起来像互联网上随机网页的内容。模型还被训练以最大化可能性,它必须对一切进行概率估计。

目标基本上是预测下一个标记,给定之前的标记。标记就像单词,或者是单词的一部分。由于模型必须对它进行概率估计——我们正在训练以最大化对数概率——它最终会变得非常校准。它不仅可以生成所有网络内容,还可以对一切分配概率。

基础模型可以有效地承担所有这些不同的角色或生成所有不同种类的内容。当我们进行后训练时,我们通常针对的是更狭窄的行为范围,我们希望模型表现得像一种聊天助手。这是一个更具体的人物设定,它试图变得有用。它不是试图模仿一个人。它在回答你的问题或执行你的任务。我们正在优化一个不同的目标,那就是更多地产生人类会喜欢并发现有用的输出,而不是仅仅模仿来自网络的原始内容。

Dwarkesh:也许我应该退一步,问这个问题。现在我们有这些模型,它们作为聊天机器人表现得相当不错。从当前这些过程的工作方式退一步来看,你认为到年底发布的模型将能够做些什么?如果我们将一切推向未来五年,你认为进步会是什么样子?

Schulman:五年后,这些模型会好得多。

Dwarkesh:在哪些方面?

Schulman:即使在一两年之内,我们会发现模型能够执行比现在更复杂的任务。例如,你可以想象让模型执行整个编码项目,而不仅仅是给你一个关于如何编写函数的建议。你可以想象模型接收高层次的编码指令,然后独立地编写任何文件,测试它,并查看输出。它甚至可能还会迭代一下。所以就是更复杂的任务。

Dwarkesh:根本上的解锁是它能够连贯地行动足够长的时间来编写多个文件的代码?从现在到那时有什么变化?

Schulman:我会说这将来自一些组合,训练模型执行像这样的更难任务。大部分训练数据更像是一次执行一个步骤。我期望我们更多地训练模型来执行这些更长的项目。

这是任何类型的训练,比如做强化学习,学习如何执行这些任务。无论你是在最终输出时监督它,还是在每个步骤中监督它,任何执行这些长期项目的培训都将使模型变得更好。

由于整个领域相当新,我会说在这个类型的培训中有很多容易摘取的果实。这是一件事。我还期望随着模型的改进,它们会变得更擅长从错误中恢复或处理边缘情况。当出现问题时,它们会知道如何从中恢复。

模型将更加样本高效。你不必收集大量数据来教它们如何回到正轨。只需要一点数据或者它们从其他能力中的泛化就足以让它们回到正轨。当前的模型可能会陷入困境并迷失方向。

Dwarkesh:我想具体了解泛化是如何帮助你回到正轨的。你能多说一些吗?我不太确定这两个概念是如何联系起来的。

Schulman:对,它们不是直接联系的。你通常有一些数据可以完成所有事情。如果你收集了一个多样化的数据集,你就会在其中得到一切。如果你有泛化能力很强的模型——即使只有几个回到正轨的例子,或者在预训练数据中有几个模型回到正轨的例子——模型将能够从它所看到的其他事物泛化到当前情况。

如果你有较弱的模型,你可能可以通过足够的数据让它们做几乎所有事情。但你可能必须在特定领域或技能上投入大量努力。

而对一个更强的模型来说,它可能不需要任何训练数据或任何努力就能做正确的事情。

Dwarkesh:现在这些模型可以连贯地工作五分钟。我们希望它们能够执行人类需要一个小时来完成的任务,然后是一周,一个月,等等。

要达到每一个这些基准,是否每个都需要10倍的计算量,类似于当前预训练的扩展法则?还是说这将是一个更加简化的过程,你已经更加样本高效,你可以直接达到执行任务的年限?

Schulman:从高层次上讲,我同意长期任务将需要更多的模型智能才能做好。它们将更昂贵地训练。我不确定我会期望一个真正清晰的扩展法则,除非你以非常谨慎的方式设置它,或者以某种方式设计实验。可能会有一些相变,一旦你达到某个水平,你就可以处理更长期的任务。

例如,当人们为不同的时间尺度做计划时,我不确定他们是否使用完全不同的机制。我们可能使用相同的心智机制来思考一个月后、一年后或一百年后的事情。我们实际上并不进行某种强化学习,需要担心一个覆盖那个时间尺度的折扣因子等等。

使用语言,你可以描述所有这些不同的时间尺度,然后你可以做计划。在当下,你可以尝试朝着你的目标取得进展,无论是一个月后还是10年后。我不知道这是否是一个相变,但我可能期望模型也是如此,其中可能有一些能力在多个尺度上工作。

Dwarkesh:如果我说错了请纠正我。似乎你在暗示,现在我们有的模型在每个标记的基础上相当聪明。它们可能在每个标记的基础上和最聪明的人类一样聪明。阻止它们像它们本可以的那样有用的事情是,五分钟后,它们不会以一种连贯的方式继续编写你的代码,这与你对项目或类似事物的更广泛目标保持一致。

如果一旦你开始这个长期RL训练机制,它立即解锁了你长时间连贯的能力,我们应该预测一旦那个机制被解锁,就会出现人类水平的东西吗?如果不是,那么在我们能够计划一年并执行那么长时间的项目之后,还有什么剩下的?

Schulman:一旦我们进入那个机制或进步的速度会如何,目前还不太清楚。这仍然是不确定的。我不期望通过做任何这样的训练就能立即解决一切问题。模型还会有其他一些缺陷,导致它们陷入困境或做出比人类更糟糕的决策。我不期望这一个小小的东西会解锁所有能力。但是,长期任务能力的提高可能会有很大的进步。

Dwarkesh:你会说这是合理的吗?这看起来很有可能,还有其他原因可能导致瓶颈吗?我也很好奇这些瓶颈的本质是什么。它已经拥有所有预训练的表示。现在,由于长期RL,它可以长时间连贯地工作。还剩下什么?

Schulman:也许还有其他一些人类专家在执行不同任务时带来的经验,比如拥有品味或更好地处理模糊性。如果我们想做研究,我可以想象这些考虑会发挥作用。显然,模型的实用性限制和它能否使用UI、与物理世界互动或访问事物将会有一些现实的限制。所以可能会有很多现实的障碍,这些障碍可能不会持续很长时间,但最初会减缓进展。

Dwarkesh:让我们谈谈为这些AI设计的网页。一旦它们经过更多多模态数据的训练,它们会与我们为人类设计的网页有什么不同吗?需要什么UI?它们将如何弥补它们的优势和劣势?这与我们目前为人类设计的UI有什么不同?

Schulman:这是一个有趣的问题。我预计,一旦视觉能力有所提高,模型将能够使用为人类设计的网页,仅通过视觉。所以,没有必要立即改变它们。

另一方面,将会有很多网站从AI的使用中受益匪浅。我们可能希望为AI设计更好的用户体验。我不确定确切的含义是什么。假设我们的模型在文本模式上仍然比从图像中读取文本更好,你可能希望为模型提供良好的基于文本的表示。

你也希望有一个很好的指示,说明所有可以交互的事物是什么。但我不期望网络会完全重新设计,到处都是API。我们可以让模型使用与人类相同的UI。

Dwarkesh:我猜这是语言模型的大教训,对吧?它们可以在与人类相似的条件下行动。

我想回到你之前提到的一个观点,即这个过程可能因为可以从预训练经历中泛化而更样本高效,从而摆脱不同场景中的困境。你看到过的这种泛化和转移的最有力证据是什么?

关于模型未来能力的大问题似乎是正在发生的泛化有多少。有什么对你来说感觉非常令人信服的东西吗?你有没有看到模型学会了一些你不希望它从泛化中学到的东西?

Schulman:在后训练中,肯定有一些有趣的泛化实例。

一个众所周知的现象是,如果你用英语数据完成所有的微调,模型会自动在其他语言中表现良好。所以如果你用英语数据训练助手,它在西班牙语中也会做出合理的反应。有时你可能会在用英语回复还是用西班牙语回复方面得到错误的行为。通常你会得到正确的行为,意味着你让它用西班牙语回应西班牙语查询。这是模型正确、有帮助的人物设定,然后自动在不同语言中做正确事情的一个有趣的泛化实例。

我们在多模态数据上看到了一些这方面的版本,如果你只进行文本微调,你也会在图像上得到合理的行为。在ChatGPT早期,我们试图解决模型理解自身局限性的问题。早期版本的模型会认为它可以给你发电子邮件或给你叫优步什么的。模型会尝试扮演助手,并说“哦,当然,我发了那封电子邮件”。显然它没有。

所以我们开始收集一些数据来解决这些问题。我们发现,即使是混合其他所有数据,一点点数据也能起到作用。我不记得确切有多少个例子,但像30个例子这样的东西。我们有相当少的例子展示了这种一般行为,解释了模型没有这个能力。这很好地泛化到了我们没有训练的各种能力上。

Dwarkesh:我仍然想回到这个问题,因为我不确定我理解了。假设你有一个模型,它被训练成能够长时间保持连贯性。抛开可能存在或不存在的其他瓶颈,明年你可能会拥有潜在的人类水平的模型吗?我想象的是一个你与之互动就像与同事互动一样的模型,它和与人类同事互动一样好。你可以告诉它们去做一些事情,它们就会去完成。你认为可能的这种能力有什么问题?

Schulman:很难确切地说缺陷会是什么。当你今天与模型交谈时,除了长期连贯性之外,它们还有各种弱点。它们也很难真正深入思考事情或关注你要求它们做的事情。我不认为仅仅提高连贯性就足以达到通用人工智能(AGI)。我想我无法确切地表达出主要的弱点是什么,会阻止它们成为一个完全功能齐全的同事。

2025年通用人工智能计划

Dwarkesh:那么看起来,你应该计划很快就拥有通用人工智能的可能性。

Schulman:我认为这是合理的。

Dwarkesh:所以如果没有其他瓶颈。在接下来的一年左右,你就拥有了通用人工智能。计划是什么?

Schulman:如果通用人工智能比预期来得早得多,我们肯定要小心。我们可能想在训练和部署上稍微放慢一点,直到我们相当确定我们知道我们可以安全地处理它。我们需要很好地掌握它将做什么以及它能做什么。如果它比预期早得多发生,我们必须非常小心。我们在很多方面的理解仍然是基础的。

Dwarkesh:小心意味着什么?假设你已经很小心了,对吧?你在部署之前进行这些评估。

Schulman:也许这意味着不训练更聪明的版本,或者在你训练时非常小心。你可以确保它被适当地隔离,等等。也许这意味着不大规模部署它,或者小心地考虑你部署它的规模。

Dwarkesh:让我们来玩一个场景。明年通用人工智能就实现了。你没有训练一个更聪明的系统,但你以一种相对有度的方式部署它。假设发展并不特定于OpenAI。通用人工智能结果比我们预期的要容易得多,这就是为什么它发生了。所以你稍等一下再部署。现在其他公司拥有类似水平的能力。接下来会发生什么?当你等待部署时,你在等什么?在这个场景中,每家公司都在做什么?

Schulman:博弈论有点难以思考。首先,我不认为这会在明年发生,但进行这样的对话仍然是有用的。可能是在两到三年内。

Dwarkesh:两到三年仍然相当快。

Schulman:仍然相当快。你可能需要一些协调。每个人都需要同意对部署或进一步训练设定一些合理的限制,这样才行得通。否则,你会有竞赛动态,每个人都总是试图保持领先,这可能需要妥协安全。你可能需要在进行这种训练的较大实体之间进行一些协调。

Dwarkesh:你将协调暂停部署,直到什么确切的事情?直到你弄清楚模型中发生了什么?

Schulman:我们可以暂停进一步训练。我们可以暂停部署。我们可以避免一些可能更危险的训练类型。我们将为每个人应该做什么来限制这些事情设定一些合理的规则。

Dwarkesh:限制到什么目的?在某个时候,这种智能内部的潜在能量将被释放。假设两年后我们得到了通用人工智能。现在每个人都很恐慌。人工智能公司已经暂停了。我们计划等到什么时候?

Schulman:我没有办法很好地回答这个问题。如果我们能像那样进行协调,那将是一个相当好的情景。构建这些模型非常资本密集,有许多复杂的部分。这并不像每个人都要在家里重新创造这些东西。

鉴于能够训练最大模型的实体数量相对较少,进行协调似乎是可能的。我不确定如何长时间维持这种平衡,但我认为如果我们到达那个地步,我们将处于一个可以的位置。

Dwarkesh:我们会吗?我仍然很好奇,因为我不确定接下来会发生什么。从根本上说,好处是你将其推送到服务器,现在我们有了一批智能,或者它们可以自己推送到服务器。现在我们已经协调了每个人,但我不确定在这个新世界中我们接下来要做什么。为什么这为我们设定了一个好结果?

Schulman:如果我们能让每个人都合理协调,并且我们觉得我们能够很好地解决关于一致性的技术问题,那么我们就可以部署。我们将能够部署真正智能的人工智能,作为人们意志的延伸,同时也防止它们被灾难性地滥用。那将是很棒的。我们可以安全地部署这些系统,它将带来大量的繁荣和更快速的科学进步阶段。这就是好情景的样子。

Dwarkesh:这很有道理。我对几年后的情况感到好奇。在最好的情况下,所有这些参与者都同意暂停,直到我们弄清楚我们正在构建的是对齐的系统,它们本身不会试图发动政变,也不会使别人这样做。那证明会是什么样子?那证据会是什么样子?

Schulman:如果我们能部署系统,这些系统是增量的,比之前的系统更聪明,那会更安全。我希望事情发展的方式不是每个人都必须协调,锁定事物,并安全地释放事物。这将导致潜在能量的巨大积累。

我宁愿我们所有人都持续不断地发布比之前更好的东西。我们将在确保我们对每个差异都对安全和一致性的改进有信心的同时这样做,这与能力的提升相对应。如果事情开始看起来有点可怕,那么我们就能够放慢速度。这就是我所希望的。

如果有更多的不连续跳跃,就会有一个“你怎么知道你要释放的东西是安全的”的问题。我无法给出一个通用的答案。然而,你可能想要做的事情类型,以使这更可接受,将是大量测试模拟部署,某种形式的红队。你希望以比你在现实世界中计划做的事情更有可能失败的方式去做。

你想要有一个非常好的监控系统,以便如果部署的系统开始出现问题,你可以立即检测到它。也许你有东西在监视部署的人工智能,监视它们在做什么,并寻找麻烦的迹象。

你想要一些深度防御。你想要一些组合,“模型本身似乎表现得非常好,对一切都有无可挑剔的道德信心”,并且“我相当有信心它极其抵抗任何严重的滥用”。你也希望有非常好的监控在它上面,这样你就可以检测到任何不可预见的麻烦。

Dwarkesh:当你在做长期RL或者最终开始做的时候,你在跟踪什么?你怎么能在你广泛部署这些系统之前注意到这种不连续的跳跃?

Schulman:你会希望在训练过程中进行大量的评估。

Dwarkesh:具体来说呢?在进行长期RL(强化学习)训练时,是否有必要知道这可能发生?或者这只是一个可能性很低的事情?你怎么看待这个问题?

Schulman:如果在进行这类训练时,你看到了许多可能令人担忧的能力,你会非常小心。我会说,现在我们还不需要害怕,因为现在让模型做出任何连贯的事情都很困难。

如果它们开始变得非常好,我们会认真对待这些问题。我们会进行大量评估,测试它们是否有不当行为,主要是为了模型的一致性。我们想要检查它们不会反对我们或类似的事情。你可能还想寻找能力上的不连续跳跃。你会希望对模型的能力进行大量评估。

你还要确保你训练的内容没有任何理由让模型反对你。这似乎不是最难做的事情。我们用RLHF(强化学习中的人类反馈)训练它们的方式,感觉很安全,尽管模型非常智能。模型只是试图产生一个人类会喜欢的信息。它对世界上其他任何事情都不关心,只关心它产生的文本是否得到认可。

显然,如果模型需要执行一系列涉及工具的长期动作,那么它可能有一些动机去做很多对人类来说没有意义的疯狂事情,以产生最终结果。然而,它不一定有动机去做除了在最后产生非常高质量的输出之外的任何事情。

有一些关于工具性收敛的旧观点,模型想要接管世界,这样它就可以在最后产生一些了不起的代码。如果你要求它为你编写一个Flask应用程序,它会说“哦,是的,首先我需要接管世界。在某种程度上,很难想象为什么对于像编写应用程序这样明确指定的任务,你会想先接管世界。当然,如果你分配了一个任务,比如“赚钱”,那么作为工具性目标,可能会导致一些恶意行为。

教会模型推理

Dwarkesh:在我们回到那个话题之前,让我们退一步,谈谈今天的RLHF系统和一切。我确实想跟进那个观点,因为它很有趣。

以今天的RLHF及其影响这些模型的方式,你如何从人类心理学的角度来描述它?它是驱动力吗?是目标吗?是冲动吗?在心理学上,它是什么样的事情?它在哪些方面正在改变?

不仅仅是聊天机器人的角色,还有“不要那样说,用另一种方式说”或“不要发布那种类型的输出”。

Schulman:可能有一些与人类中的驱动力或目标的类比。你试图引导模型朝向特定状态集,而不是其他状态。我认为我们对驱动力或目标的概念还有其他元素,比如你实现它时的满足感。这些东西更多地与学习算法有关,而不是模型在运行时所做的事情,那时你只有一个固定的模型。

可能有一些类比,尽管我不知道它有多接近。从某种意义上说,模型确实以某种有意义的方式拥有驱动力和目标。在RLHF的情况下,你试图最大化人类的认可,通过奖励模型来衡量,模型只是试图产生人们会喜欢并判断为正确的东西。

Dwarkesh:我听说过两种关于使用内部独白来提高推理能力的想法。至少公开地,我已经看到了两种想法,我很好奇哪一个你认为更有希望。

一种是模型从它在许多可能的思维轨迹上的输出中学习,并学会遵循导致正确答案的那一个。然后在部署前对其进行训练。另一种是你在部署时使用大量计算进行推理。这种方法涉及模型在部署时自言自语。

当模型真正擅长推理时,你期望哪一种更接近模型的训练方式?是因为它只是做了大量推理云?还是仅仅因为你已经训练它在这方面做得好?

Schulman:你可以将推理定义为需要在测试时进行某种计算或某种演绎的任务。根据定义,推理将是需要一些测试时计算和逐步计算的任务。另一方面,我也期望通过在训练时进行练习获得很多收获。所以我认为你通过结合这两件事会得到最好的结果。

Dwarkesh:现在,你有这两种模型学习方法。一种是在训练中,无论是预训练还是后训练。训练中的大部分计算都花在预训练上,略过数万亿个标记,浏览数万亿个标记的信息。如果一个人受到这种对待,他们只会完全困惑。这不是一个非常有效的学习方式。

另一种方式是上下文学习。当然,这更有样本效率,但每个实例都被破坏了。

我很好奇你是否认为在这两者之间有一条路径,它不会在每个实例中被破坏,但也不像只是看到数万亿个标记那样轻率。更具意识和活跃。

Schulman:你的意思是模型有一些中期记忆?太多而不适合上下文,但比预训练规模小得多?

Dwarkesh:这可能是记忆。我没有上下文。当然,当我试图为这次对话做准备时,我想到我应该理解什么,仔细阅读它,也许在阅读时考虑它。我不确定它在模型方面自然对应什么。那会是什么样子?

Schulman:我明白了。所以这不仅仅是记忆,某种程度上也是专门针对某个任务或投入大量精力到某个特定项目。

Dwarkesh:我甚至不确定它是不是专门化。更像是“我不理解这部分,所以让我更深入地研究。我已经理解了这部分。”我猜这是专门化到你的现有知识库。

Schulman:我明白了。所以这不仅仅是关于在大量相关资源上训练并在某个特殊领域进行微调。它还涉及推理,并通过你自己的推理发展一些知识,使用某种内省或自我知识来弄清楚它需要学习什么?

Dwarkesh:是的。

Schulman:这确实感觉是当今系统缺失的东西。人们还没有真正大力推动大规模训练和上下文学习之间的中间地带。

部分原因是我们一直在增加上下文长度,以至于没有激励它。如果你能达到十万或一百万的上下文,那实际上是相当多的。在很多情况下,它实际上并不是瓶颈。

我同意你的观点,你可能还想用某种微调来补充它。微调和上下文学习所获得的能力可能是互补的。我预计我们会想要构建一些在线学习系统,并且拥有一些认知技能,比如对它们自己的知识进行内省,并寻找填补空白的新知识。

Dwarkesh:这一切都是同时发生的吗?还是一个新训练机制,所有这些事情都可以同时发生,无论是长期还是这种训练?

它们是分开的还是不分开的?模型是否足够智能,既能内省又能在更长的时间范围内行动,以便你在长期任务上获得适当的回报?

Schulman:如果你在做一些长期任务,你是在执行任务时学习的,对吧?

要做一些涉及很多步骤的事情,唯一的方法是拥有在任务期间更新的学习记忆。短期记忆和长期记忆之间有一个连续体。

我预计,当我们开始更多地关注长期任务时,这种能力的需求将开始变得清晰。在某种程度上,将很多东西放入上下文会带你走得很远,因为我们现在有很长的上下文。你可能还想要像微调这样的东西。

至于内省和主动学习的能力,这可能会自动从模型知道它们知道什么的能力中产生。模型确实对它们知道什么有一些校准。这就是为什么模型不会太幻觉。它们对自己的局限性有一些理解。同样的那种能力可以用于像主动学习这样的东西。

通往ChatGPT的道路

Dwarkesh:有趣。我想退一步,问问你自己的历史,至少在OpenAI。你领导了ChatGPT的创建。你什么时候意识到这些大型语言模型是要走的路?你什么时候意识到聊天机器人或者某种指导它们的方式会是有用的?请带我走过整个谱系,从这成为你的主要关注点以及整个过程的样子。

Schulman:在ChatGPT之前,OpenAI有这些遵循指令的模型。那里的想法是,我们有基础模型,人们可以以复杂的方式提示它们。但它们也很难提示。它们基本上是自动完成,所以你必须用一些例子设置一个非常好的提示。

OpenAI的人们正在研究如何只拿基础模型并使它们更容易提示。所以如果你只写一个问题,它会回答问题,而不是给你更多的问题或类似的事情。所以我们有这些遵循指令的模型,它们就像基础模型,但更易于使用一点。那些是最初部署在API中的。或者在GPT-3之后,那些是下一代模型。

同时,绝对有很多人在考虑聊天。谷歌有一些像LaMDA和早期的Meena的论文。他们有这些聊天机器人。这更像是一个真正专门用于聊天任务的基础模型。它非常擅长聊天。从论文的例子来看,它更多用于有趣的应用,模型会承担某种角色并假装是那个角色。它不是那么功能性强,不能帮助我重构我的代码。

所以绝对有人在考虑聊天。我之前在一个名为WebGPT的项目上工作过,它更多的是在浏览和检索的帮助下进行问答。当你进行问答时,它真的需要是一个聊天。你总是想问后续问题,或者有时模型应该问一个澄清问题,因为问题是模棱两可的。

在我们完成第一个版本后,很明显下一个版本应该是会话式的。所以我们开始研究会话聊天助手。这是在GPT-3.5之上构建的,它在2022年初完成了训练。那个模型非常擅长语言和代码。我们很快意识到它实际上非常擅长编码帮助。这是我们感到兴奋的一件事。

我们大部分时间都在研究这个。我们还有浏览作为它的另一个功能,尽管我们后来强调了这一点,因为模型的内部知识非常好。浏览不是它最有趣的事情。我们把它给朋友和家人试用了一段时间,我们考虑进行公开发布。

实际上,GPT-4在那一年的8月完成了训练。OpenAI的旗舰RL(强化学习)努力是遵循指令的努力,因为那些是正在部署到生产中的模型。GPT-4的第一批微调使用了整个堆栈。这些模型真的很棒,每个人在看到指令微调GPT-4后都非常兴奋。

它们真的很棒。它们偶尔会给你惊人的输出,但模型显然也相当不可靠。有时它会大量幻觉。有时它会给出相当离谱的输出。所以它显然还没有完全准备好,但显然非常好。

在那之后,人们有一段时间忘记了聊天,这个替代分支。我们进一步推动了它,我们最终混合了所有数据集,指令和聊天数据,试图得到两个世界中最好的。聊天模型显然更易于使用。

它在模型知道自己的局限性方面自动具有更合理的行为。实际上,这是我们在开发过程中感到兴奋的一件事。我意识到,很多人认为语言模型的缺陷,比如公然幻觉,可能无法完全修复,但通过相当直接的方法可以取得很大进展。

关于聊天的另一件事是,当我们有这些指令模型时。“以好或有帮助的方式完成这段文本”的任务定义非常不明确。这个任务对模型和应该进行数据标记的人类来说都很混乱。而对于聊天,人们有一种直观的感觉,知道一个有用的机器人应该是什么样子。所以人们更容易理解模型应该做什么。结果,模型有一个更连贯的个性,更容易获得相当合理的稳健行为。

Dwarkesh:有趣。任何人都可以使用你公开可用的微调API制作ChatGPT吗?

Schulman:不完全是。我不记得哪些模型当时可以用于微调。假设我们当时有3.5可用于微调,你可以做出相当接近的东西。我不认为你只使用纯粹的人类编写的数据进行一次微调。

如果你不做RL(强化学习),我们做了,你会想要某种迭代的监督微调,人类编辑模型生成的输出。如果你在人类生成的数据上训练,即使质量非常高,模型也很难完全适应这些数据,因为它可能是模型能够输出的东西。你需要做一些迭代的事情,看起来更像RL。如果你这样做了,你可以非常接近,但这将是非平凡的。

我们还在ChatGPT之前发布了另一个使用RL训练的指令模型。如果你给那个模型加上聊天包装器,你会相当接近,但那个模型在优势上有一些差异。那个模型擅长写作和诗歌,但它在知道自己的局限性、事实性等方面没有那么好。

Dwarkesh:从3.5退一步,我想我在哪里听到你说过你对GPT-2印象深刻。与2019年的预期相比,AI的发展速度是比你预期的快还是慢?

Schulman:自从GPT-2以来比我预期的快。我非常认同扩大规模和预训练是一个很好的主意。但当GPT-2完成时,我并没有完全信服它能彻底改变一切。真正在GPT-3之后,我转变了我正在做的工作和我团队的工作重点。之后,我们聚在一起说,“哦,是的,让我们看看我们能用这些语言模型做些什么。”但在GPT-2之后,我还不太确定。

Dwarkesh:假设我们之前讨论的强化学习(RL)开始与这些更智能的模型更好地工作。未来在预训练和后训练之间分配的计算资源比例是否会显著改变,倾向于后训练?

Schulman:有一些理由支持这一点。现在这个比例非常不平衡。你可以认为模型生成的输出比网络上的大部分内容质量更高。所以让模型自主思考比仅仅训练模仿网络上的内容更有意义。所以我认为这是一个首要原则的论点。

我们通过后训练获得了很大的提升。所以我期望我们继续推动这种方法,并可能增加我们投入其中的计算资源。

Dwarkesh:当前的GPT-4有一个Elo评分,比最初发布的版本高出约100分。这全是因为你所谈论的,由后训练带来的这些改进吗?

Schulman:是的,大部分是后训练。有很多不同的改进方向。

我们考虑数据质量、数据数量。仅仅是进行更多次的部署和收集新数据的整个过程。还有改变你正在收集的注释类型。有很多因素堆积起来,但它们共同为你提供了相当可观的有效计算能力提升。

Dwarkesh:这是一个巨大的提升。很有趣的是,有这么多的改进空间来自后训练。

成为一名优秀的强化学习研究员的要素

什么样的人才能在这种强化学习研究中做得非常出色?我听说这非常棘手。你拥有什么样的直觉,使你能够找到这些方法来干预数据并设置这些环境?

Schulman:到目前为止,我从堆栈的不同部分,从强化学习算法(这是我从研究生时期就开始研究的),到数据收集、注释流程,以及玩弄语言模型,都积累了相当多的经验。

我想说我对这些事情有所涉猎,而且在这个研究领域做得好的人对整个堆栈有一些看法,并且对它的不同部分非常好奇。你既要实证,让实验更新你的观点,但也要基于首要原则思考。假设学习有效,那么理想类型的数据收集是什么样的?

Dwarkesh:因为没有一个模型自从GPT-4以来似乎有显著的进步,有一个假设是我们可能正在达到某种平台期。这些模型实际上并没有很好地泛化,你将会遇到一个数据墙,在这个数据墙之外,通过记忆大量预训练数据集所解锁的能力不会帮助你得到比GPT-4更智能的东西。

你认为这个假设是错误的吗?我们已经讨论了一些泛化的例子,比如从西班牙语到英语。我认为我想起的一个例子是代码到语言推理的迁移。如果你在大量代码上训练,它会在语言推理方面变得更好吗?真的是这样吗?

你是否看到了不同模态之间的正向迁移?如果你在大量视频和图像上训练,它会从合成数据中变得更聪明吗?还是说,解锁的能力非常局限于你放入训练语料库的确切类型的标签和数据?

Schulman:我会尝试回应所有这些。首先,我们是否即将达到数据墙?我不会从GPT-4发布以来的时间中得出太多结论,因为训练这些模型并为训练新一代模型做所有准备工作确实需要一段时间。

我不会从那个事实中得出太多结论。数据量有限确实存在一些挑战,但我不认为我们会立即达到数据墙。然而,随着我们接近它,我预计预训练的性质会有所改变。

关于不同类型的预训练数据的泛化,我会说,对于这类问题进行科学研究相当困难,因为你无法创建那么多预训练模型。也许你无法训练一个GPT-4大小的模型,并在那个规模上进行消融研究。也许你可以训练很多GPT-2大小的模型,甚至GPT-3大小的模型,使用不同的数据混合,看看你会得到什么。我不知道有任何公开的涉及代码数据和推理性能的消融研究的结果。我非常想知道这些结果。

Dwarkesh:我对某件事很好奇。其中一个问题是,随着模型变大,它变得更聪明。在GPT-2级别的模型上进行消融实验,如果表明没有太多迁移,是否可以为GPT-4级别模型在类似领域中的迁移水平提供证据?

Schulman:对,你不能得出结论,如果迁移在GPT-2大小上失败,那么在更高规模上也会失败。可能对于更大的模型,你学会了更好的共享表示,而较小的模型则过于依赖记忆。更大的模型可以学会进行正确的计算。我认为这在某种程度上是正确的。

Dwarkesh:这可能有一个非常简单的答案。你在相同数量的数据上训练更大的模型,它们变得更聪明。或者要达到同样的智能水平,你只需要在较少的数据上训练它们。为什么会这样?它有更多的参数,看到的更少,现在它同样聪明。为什么会这样?

Schulman:我认为没有人对参数数量的扩展法则有好的解释。我甚至不知道最好的心态模型是什么。显然,如果你有一个更大的模型,你就有更大的容量。所以你应该最终能够获得更低的损失。

为什么更大的模型更具有样本效率?我可以给你一个粗略的解释。你可以说这个模型是执行计算的不同电路的集合。你可以想象它在并行进行计算,输出是它们的加权组合。如果你有更多的宽度……实际上宽度与深度有些相似,因为具有残差网络的深度在更新残差流中的内容方面可以类似地做宽度。

你正在并行学习所有这些不同的计算,并且你有一个更大的模型,你就拥有更多的计算。所以你有更高的机会,其中一个是幸运的,最终猜测正确很多,并得到提升。

有一些算法是这样工作的,比如混合模型或乘法权重更新算法,你拥有——我不想说专家的混合,因为它意味着不同的东西——基本上是专家的加权组合,有一些学习的门控。

我实际上说错了一点,但你可能会想象类似的东西。只是拥有一个更大的模型,就给你更多的机会获得正确的功能。

当然,这不仅仅是你正在采取线性组合的完全不相干的功能。更像是一个库,你可能以某种方式将这些函数链接在一起。有一些可组合性。所以我会说你更大的模型有更大的不同计算库,包括很多休眠的东西,只是有时会被使用,但它有更多的空间去寻找电路来做一些有用的事情。

保持人类参与

Dwarkesh:从当前的研究问题退一步,我想了解你对未来几年的模态情景的理解。在对话开始时,我们谈到了进展非常快的情况,但让我们只考虑模态情景。

你在某个时候解锁了长期RL,但正如你所说,可能还有其他瓶颈。发生了什么?这些模型有多好?它们是如何部署的?它们还包含哪些模态,以及这些模态在什么阶段被解锁?我想了解你对未来几年更广泛情况的看法。

Schulman:我预计新模态将随着时间或相当快地被添加。我预计能力将通过预训练和后训练的结合而不断提高,并开放新的用例。

目前,AI在经济中仍然不是一个巨大的部分。有相当小的一部分工作它根本帮不上忙。我预计随着时间的推移,这一比例会更高,不仅是因为模型的改进,还因为人们弄清楚如何将它们集成到不同的过程中。所以即使我们将模型固定在当前状态,你仍然会看到它们被使用的方式有很大的增长。

我预计AI的使用将更广泛,用于更技术性复杂的任务。我早些时候给出了编程示例,进行更长期的项目,还帮助进行各种研究。我希望我们可以使用AI以各种方式加速科学,因为你可能有模型理解给定领域中的所有文献,并能够筛选大量的数据。这超过了一个人的耐心。

我希望形式因素是这样的,人们仍然推动所有这些,你有帮助的助手,你可以指导他们解决许多对你有用的不同问题。每个人都将拥有所有这些AI帮助他们做得更多,完成更多。

Dwarkesh:显然,在某个时候,它们将在它们想做的任何事情上比任何人都做得更好。这个过程会是什么样子?现在,它们显然只是帮助你。在某个时候,它们将能够为你做事,甚至可能为你经营整个公司。这会是一个平滑的过程吗?在这一点上,我们是否希望我们拥有与用户对齐的系统,以至于它们可以指望公司以他们期望的方式运行。

Schulman:我们可能不希望立即让AI运行整个公司。我们可能希望人们监督这些重要决策并发号施令,即使模型足够好,能够自己成功经营业务。在某种程度上,可能存在选择。

我认为人们仍然会有不同的兴趣和想法,关于他们希望指导他们的AI进行什么样的有趣追求。AI并不一定有某种固有的渴望,除非我们将其放入系统中。所以即使AI变得非常有能力,我希望人们仍然是AI最终要做的事情的驱动者。

Dwarkesh:我想知道经济平衡是否远离这一点,你在公司中拥有类似阿姆达尔定律的东西。过程中最慢的部分将是瓶颈。

即使AI使公司的非人类部分效率提高10倍,公司仍然受限于那个步骤。如果一家公司决定通过让人类参与你真正希望人类监督的所有事情,那么他们就会被没有人类的公司所超越。如果一个国家决定走这条路,其他国家将击败它。我想知道保持人类参与的计划是否可持续。

Schulman:如果我们想保持人类参与,这似乎是合理的,如果事实证明任何有人类参与的公司都被没有人类的公司所超越,那么显然需要某种规定,禁止没有人类参与运行整个公司。

Dwarkesh:但是任何一个国家都有很多公司,更不用说全世界了。我想知道是否最好对公司进行监管,说你必须在重要过程中保持人类参与,但那样你必须定义什么是重要过程。

你必须监督每一家单独的公司,你还必须得到每一个有公司的国家的合作。如果这是一个问题,是否应该在模型部署之前解决,以便如果你决定建立一个公司并依赖这些模型,它基本上会做你期望它做的事情,你就不需要人类参与?

这个问题有意义吗?我只是想知道,在这种情况下,我们如何实际上监督每一家单独的公司,以确保有人类参与?如果中国决定不这样做怎么办?

Schulman:你将不得不让每个国家都同意这一监管制度,或者你需要所有的模型基础设施或模型提供商同意这一要求。

这绝对不容易。这是展望未来,所以在看到类似的东西之前很难想象这个世界。

例如,我们真的相信AI运营的公司在各方面都更好吗?我们是否认为它们大多数时候更好,但偶尔因为AI在某些方面仍然不够样本效率而出现故障?想想它们必须处理非常奇怪情况的时候。

AI运营的公司实际上可能有更高的尾部风险,因为它们更有可能以重大方式出现故障。可能有一些实际问题会决定事情的发展。也许如果你只要求人们对各种责任负责,这也将稍微改变激励机制。

假设结果表明AI在运营一切方面都更出色,而且它们也完全是仁慈的。假设我们已经完全解决了对齐问题,它们比人类更能对人类负责。那么也许让AI运营公司是可以的。但这还很遥远。

我们更有可能处于这样一种情况:它们在短期内看起来更好,但它们仍然存在一些严重问题。实际上,是实际考虑让你更倾向于让人类参与其中,至少在不久的将来是这样。

Dwarkesh:所以这是我们今天必须处理的问题,RLHF(强化学习中的人类反馈)。你必须在许多不同的人类之间聚合偏好。随着未来更强大的系统的出现,这种情况可能会更加明显。但当你说我们希望最终完全取代公司中人类部分的AI系统要对齐时,这意味着什么?

这是否意味着它们基本上按照用户希望它们做的去做?这意味着它们必须产生某种我们作为OpenAI的利益相关者满意的全球结果吗?具体来说,这意味着什么?

Schulman:如果这些模型被用于更高风险的用例,那么我们必须以与现在完全不同的方式考虑RLHF。我们还没有准备好,或者当前的方法可能不完全足够。我们需要在涉及的不同利益相关者的需求之间做出妥协。我们发布了一个名为模型规范(Model Spec)的文件。它讲述了我们希望我们的模型在API和ChatGPT中的行为方式。

我们试图讨论这个问题,涉及不同的利益相关者,有时他们之间可能存在冲突。在我们的情况下,我们认为利益相关者是最终用户(坐在ChatGPT或其他应用程序前的人)、开发者(使用API的人,可能使用他们的应用程序为其他最终用户提供服务)、平台(OpenAI,我们不希望模型使我们面临法律风险)和其余的人类(包括不属于用户或客户的人)。

显然,用户可能会要求模型做一些我们认为对其他人有害的事情。我们可能必须拒绝。顺便说一下,这不一定是优先顺序。这些只是四类左右的利益相关者。实际上,你也许还可以说,在未来,模型本身。我们还没有到那一步。

无论如何,我们有这些不同的利益相关者。有时他们的要求存在冲突。我们必须对如何解决这些冲突做出一些决定。这并不总是显而易见的。我们必须仔细考虑权衡,基本上大致的启发式方法是我们希望模型主要遵循你的指示,对用户和开发者有帮助。

但是当这影响到其他人的幸福或生活方式时,这就成为一个问题,我们必须阻止某些类型的使用。我们主要希望模型成为人们意志的延伸,按照他们说的去做。我们不想过于家长式。我们希望保持中立,不强加我们的观点。我们主要希望让人们用模型做他们想做的事情。

Dwarkesh:我有机会事先阅读了规范。这是关于它如何很好地转移到模型本身的行为的问题。我对权衡的合理性印象深刻。我相信实际的边缘案例被明确陈述,而不是那些显而易见的事情。在这种情况下,你真的是在追求边缘案例。

Schulman:我们希望它非常可行,而不仅仅是一些听起来不错的原则。每个例子都会告诉你一些关于某种非显而易见情况的信息,并通过那种情况进行推理。

研究现状、平台期和护城河

Dwarkesh:我有几个关于研究本身的问题。在社会科学中,众所周知,事情真的很难复制。有一个问题是关于有多少科学是真实的,以及有多少是制造的、定制的实验。当你看到平均的机器学习论文时,它感觉像是真正扎实的文学作品,还是经常感觉像是社会科学中的p-hacking(一种数据挖掘手法)?

Schulman:大家对机器学习文献都有抱怨。总体而言,我认为这是一个相对健康的领域,特别是与社会科学等领域相比。它主要基于实用性,让事情奏效。如果你发表了一些不能轻易复制的东西,人们就会忘记它。

人们普遍接受,你不仅仅报告某人论文中的数字。你还尝试重新实现他们的方法,并将其与你的方法在同一训练数据集上进行比较。如果你发表的方法很难实现或者非常挑剔,它们往往会被遗忘。

因此,人们实际上会尝试开放他们的工作。还存在各种不利的激励措施。人们被激励使他们比较的基线方法变得更糟。还有其他轻微的病态,比如试图让你的方法在数学上看起来更复杂。

但总的来说,我认为这个领域正在取得进展。我希望看到更多的科学和尝试理解事物,而不仅仅是在基准测试上的爬山和提出新方法。最近已经有了相当多的成果。我们可以有更多的成果。我认为这对学者来说是一个值得研究的好领域。

另外,我真的很期待看到更多使用基础模型进行模拟社会科学的研究。这些模型对整个世界有概率模型,你可以设置模拟问卷或对话,并查看任何事物的相关性。任何你可以想象到的特质,你都可以看到它们如何与其他特质相关。

如果人们能够通过以不同方式提示基础模型并查看相关性,来复制社会科学中一些更值得注意的成果,比如道德基础等,那将是非常酷的。

Dwarkesh:那个斯坦福的实验是什么?阿希从众实验?如果这也能用语言模型复制,那就有趣了。我想问一问大实验室发生的其他研究。其中有多少是在增加或减少获得特定结果所需的计算量,作为实际的计算乘数,以及有多少只是在使学习更稳定和构建基础设施?

我想问的更广泛问题是,自从GPT-4以来,是否感觉用相同的计算量,你可以训练一个更好的模型?还是感觉你已经确保学习可以以更好、更可扩展的方式发生,用GPT-5,但现在我们不能用GPT-3.5的预算训练GPT-4?

Schulman:在提高效率方面肯定一直在取得进展。每当你有一个1D性能指标时,你会发现不同的改进可以相互替代。你可能发现后训练和预训练都提高了指标。它们在提高哪些指标方面有不同的特点。

但归根结底,如果你有一个单一的数字,它们都会在某种程度上相互替代。对于像人类评估这样的事情,人类更喜欢什么,我们肯定在预训练和后训练两方面都取得了很多进展,以改善这一点。

Dwarkesh:关于RLHF(强化学习中的人类反馈),我有几个快速的问题。显然,RLHF对于使这些模型有用很重要。所以也许“阉割”的描述是不准确的。

然而,一旦所有这些模型都以聊天机器人的形式出现,它们就有一种非常相似的说话方式。它们真的想“深入”到事情中去。它们想把事情变成项目符号。它们通常似乎有一种正式和乏味的说话方式。

有人抱怨它们不够有创造力。就像我们之前讨论的,它们只能做押韵诗而不是非押韵诗,直到最近。这是不是因为RLHF现在的特殊方式?如果是的话,是因为评估者是谁吗?是因为损失函数是什么吗?为什么所有聊天机器人看起来都这样?

Schulman:我会说,在训练过程中确实有很大的变化空间。我们正在积极尝试改进这一点,使写作更加生动有趣。我们在改进ChatGPT的个性方面取得了一些进展。当你和它聊天时,它更有趣,不那么机械。

有趣的是,一些特点是如何产生的,比如“深入”这个词。我最近实际上发现自己在使用这个词。我不知道是不是从模型中潜移默化地影响了我。

实际上,可能还有一些有趣的效果,即在语言模型和提供者之间发生了无意的蒸馏。如果你雇人去做标记任务,他们可能只是把它输入到模型中。他们可能正在使用他们最喜欢的聊天机器人,输入它,让模型执行任务,然后复制并粘贴回来。这可能解释了其中的一些趋同。

我们看到的一些事情只是人们所喜欢的。人们确实喜欢项目符号。他们喜欢结构化的回答。人们通常确实喜欢从模型那里得到的大量信息倾倒。

所以现在还不清楚有多少只是后训练过程中特定选择和设计的怪癖,以及多少实际上是人们真正想要的。

Dwarkesh:它确实似乎比一些人想要的更加啰嗦。也许只是因为在标记阶段,评估者更喜欢更加啰嗦的答案。我想知道这是否是因为预训练的方式而固有的,停止序列并不经常出现,它真的想继续进行。

Schulman:评估中可能存在一些导致啰嗦的偏见。我们倾向于一次训练一条消息,而不是整个交互。如果你只看到一条消息,那么只有一个澄清问题,或者可能是一个简短的回答,邀请后续跟进,看起来就不那么完整,而那些涵盖所有可能性的内容看起来更完整。

还有一个问题,就是人们是否更喜欢模型即时输出的文本。显然,如果你坐在那里等待标记出现,你会希望它直接进入重点。但如果它立即给你一堆文本,也许你并不在意是否有很多模板化的内容,或者有很多你将快速浏览的内容。你宁愿拥有所有这些。

Dwarkesh:奖励模型是一个非常有趣的工件,因为它是最接近我们拥有的关于人们想要什么以及他们有什么偏好的东西。我在想更聪明的模型。一个希望是,你可以只给它一个我们想要的不琐碎和明显的清单,比如联合国人权宣言。

另一方面,我想我听到你的观点,我们的许多偏好和价值观非常微妙,所以它们可能最好通过成对偏好来表示。当你想到GPT-6或GPT-7级别的模型时,我们是给它更多的书面指示,还是我们仍然在做这些潜意识的偏好?

Schulman:这是个好问题。这些偏好模型确实学到了人们偏好的许多微妙之处,这些在说明书中很难表述。显然,你可以编写一个有很多比较例子的说明书。这就是模型规范所拥有的。它有很多例子和一些解释。目前还不清楚描述偏好的最佳格式是什么。

我猜测,无论你能从一个大的数据集中得到什么模糊的偏好,你都可以将其蒸馏成一个更短的文档,主要捕捉到这些观点。更大的模型确实自动学到了很多这些概念,人们可能觉得有用和有帮助。它们将有一些复杂的道德理论可以依靠。当然,还有很多空间可以依靠不同的风格或不同的道德观。

所以如果我们写一个文档,如果我们想要对齐这些模型,我们正在做的是依靠一种特定的风格,一种特定的道德观。你仍然需要一个相当长的文档来精确捕捉你想要什么。

Dwarkesh:更好的后训练有多少护城河?公司目前通过它们的模型有多大来区分自己。这将是一个大护城河,对于已经弄清楚你之前谈到的所有这些细节的人来说,关于所有这些数据?

Schulman:它有一定的护城河,因为它只是一个非常复杂的操作,需要很多有技能的人来做。需要大量的默示知识和组织知识。

有了后训练,要创建一个实际上具有人们关心的所有功能,这是相当复杂的。它需要相当复杂的努力和大量的研发积累。这让它有一定的护城河。它不是立即就能启动的。看起来,同样认真进行预训练的公司也在认真进行后训练。

在某种程度上,复制或启动更多的这些努力是可能的。还有一种力量让它不那么成为护城河。你可以蒸馏模型,或者你可以采用别人的模型并克隆输出。你可以使用别人的模型作为评委进行比较。

更大的联盟可能不会这样做,因为这违反了服务条款政策。这也会打击他们的自尊。但我预计一些较小的参与者会这样做来起步。这在很大程度上可以赶上。

Dwarkesh:我想这有助于清除护城河。中位数评估者是什么样的?他们在哪里?他们的政治观点是什么?他们的知识水平如何?

Schulman:这有很大的不同。我们绝对雇佣了不同技能的评估者来完成不同类型的任务或项目。一个不错的心智模型就是看看在Upwork等平台上的人。看看那些从事远程工作的零工的人。

这是一个相当国际化的群体。在美国有相当多的人。我们为不同类型的标记雇佣不同的人群,比如我们是否更专注于写作或STEM任务。从事STEM任务的人更有可能在印度或其他中低收入国家。从事更多英语写作和写作的人更倾向于在美国。

有时我们需要为一些活动雇佣不同的专家。有些人非常有才华,我们甚至发现他们在执行这些任务上至少和我们这些研究人员一样好,他们比我们更仔细。我会说我们现在的人非常熟练和认真。

Dwarkesh:关于平台期的叙述,我听说其中之一是这些模型帮助您处理特定事情的许多能力与在监督式微调数据集中具有非常接近的标签有关。这是真的吗?

它能教我如何正确使用FFmpeg吗?就像有人看到输入,看到您需要添加的标志,并且有人计算出并匹配那个。你需要雇佣所有这些在各个领域具有领域专业知识的标签评估者吗?如果是这样的话,看起来要让这些模型随着时间的推移变得越来越聪明将是一个更大的挑战。

Schulman:你并不确切需要那样。你可以从泛化中得到很多。基础模型已经在大量文档、代码、shell脚本等上接受过训练。它已经看过所有的FFmpeg手册页,很多Bash脚本等。

即使只是给基础模型一个好的少量示例提示,你也能让它回答这样的问题。即使没有在任何STEM上训练,仅训练一个偏好模型以帮助性,也会在一定程度上泛化到STEM。所以不仅你不需要FFmpeg的使用示例,你甚至可能不需要任何编程相关的东西就能在编程领域得到一些合理的行为。

Dwarkesh:也许是最后一个问题。我们已经以不同的方式提到了这一点,但让我们把它整合起来。你说你正在训练更多的多模态数据。可以预见,这些东西将理解屏幕的外观,并将能够以更连贯的方式与它们交互。而且你还将进行这种长期RL,所以它们将能够作为代理在系统中工作,并以更集成的方式成为你工作流程的一部分。

你期望它看起来像什么?从那里的下一步是什么?假设在年底或明年,你有一个可以与你在屏幕上工作的助手。期望这样的事物似乎是合理的吗?从那里开始,它会去哪里?

Schulman:我绝对期望事情朝那个方向发展。目前还不清楚什么是最好的形式因素。它可能是像Clippy在你的电脑上帮助你,或者它更像是云中的一个有帮助的同事。我们将看看哪种形式因素最有效。我期望人们尝试所有这些。

我期望一个有益的助手或有益的同事的心理模型变得更加真实。它将是你可以分享更多日常工作的东西。而不仅仅是给它一次性查询,你将有一个你一直在做的整个项目,它知道到目前为止你在那个项目上所做的一切。

它甚至可以主动提出建议。也许你可以告诉它记得问我这个,如果我在这方面取得了任何进展。主动性是一直缺失的东西之一。我希望能从一次性查询、像搜索引擎一样使用模型,转向与模型合作进行整个项目。在这种情况下,它知道我所做的一切。它主动建议我尝试的事情,或者它在后台进行工作。

Dwarkesh:这真的很有意思。这是最后一个问题。你被取代工作的中位数时间表是什么时候?

Schulman:哦,它取代我的工作?也许五年。

Dwarkesh:相当快。有趣。John,这次谈话非常有趣。非常感谢你抽出时间。这似乎是人工智能过程中非常重要的一部分,而人们对此不太了解。深入探讨并听取你的想法非常有趣。

Schulman:谢谢你邀请我参加播客。谈论这些事情很有趣。