OpenAI创始人深度对话:五年内AI或将取代你的职位

发表时间: 2024-05-17 18:20

2024 年 5 月 15 日,OpenAI 的联合创始人 John Schulman 约翰·舒尔曼参加了 Dwarkesh Patel 的播客采访,分享了关于人工智能模型的预训练、后训练以及未来发展的见解。

在播客中,Schulman 强调了后训练在提高模型性能方面的重要性,特别是在 OpenAI 的 GPT 模型系列中,后训练是提高模型在各种基准测试和实际应用中表现的关键因素。通过这些方法,OpenAI 的 Elo 分数提高了一百分。

在播客中,他还提到了 AGI 可能会在两三年内看到一些重大进展,AI 可能在五年内取代他的工作。他强调了在 AGI 成为现实之前,需要非常小心,并可能需要放慢培训和部署的速度,以确保安全和对齐的考虑。

以下是对播客内容的总结:

  1. 预训练与后训练:预训练涉及训练模型以模仿互联网上的内容,生成随机网页内容,并为所有内容分配概率。后训练则专注于优化模型以执行更具体的角色,如聊天助手,更多关注于产生有用和有帮助的输出。
  2. 模型的未来能力:Schulman 预测,未来几年内,AI 模型将能够完成更复杂的任务,如整个编程项目,而不仅仅是提供代码建议。模型将能够接受高层指令,编写和测试代码,并进行迭代。
  3. 泛化与多模态学习:模型已经展示出跨不同领域的泛化能力,例如在英语上训练的模型也能在其他语言上表现良好。未来,模型将通过多模态数据训练,提升视觉能力,并更好地与为人类设计的网站交互。
  4. 强化学习与长期任务:通过强化学习,模型将能够执行长期项目,如编写多个代码文件。这需要模型具有更好的样本效率和从错误中恢复的能力。
  5. 模型的对齐与安全:随着模型变得更强大,确保它们的行动与人类价值观和目标一致变得至关重要。Schulman 讨论了在 AGI(人工通用智能)到来之前,如何通过协调和监管来确保安全部署。
  6. 研究与社会科学:Schulman 认为,机器学习领域相对健康,但也存在挑战,如复制性问题。他提出使用大型语言模型进行模拟社会科学研究的想法。
  7. RLHF(从人类反馈中学习的强化学习):RLHF 对于训练有用模型至关重要,但当前的 RLHF 方法可能导致模型输出风格上的趋同,需要进一步的研究来增加多样性。
  8. 模型的商业化与监管:随着 AI 模型在商业中的应用增加,可能需要国际间的协调来确保人类参与和监管,以避免由 AI 完全控制的公司带来的潜在风险。
  9. 模型的未来发展:Schulman 期待 AI 助手能够更深入地整合到工作流程中,具有长期记忆和主动性,能够在整个项目中提供帮助。
  10. 个人影响:Schulman 幽默地预测,AI 可能会在五年内取代他的工作,显示出对未来 AI 能力的信心和对当前研究进展的现实评估。

以下是播客内容的完整翻译,我们做了不改变原意的编辑。

约翰·舒尔曼(OpenAI 联合创始人)- 推理、RLHF 和 2027 年 AGI 计划

预训练、后训练和未来能力

Dwarkesh Patel 德瓦克什·帕特尔

今天我很高兴与 John Schulman 进行交谈,他是 OpenAI 的联合创始人之一,负责领导这里的后训练团队。他还领导了 ChatGPT 的创建,并是许多最重要和广泛引用的人工智能和强化学习论文的作者,包括 PPO 和许多其他论文。John,很高兴与你交谈。感谢你参加这个播客。

John Schulman 约翰·舒尔曼

感谢邀请我参加播客节目。我是你的忠实粉丝。

Dwarkesh Patel 德瓦克什·帕特尔

谢谢你这么说。这是我的第一个问题。我们在预训练和后训练之间有这些区别,让我们在超越实际发生的损失函数和训练方案。从概念上退后一步,预训练创造了什么样的东西?后训练又在此基础上做了什么?

John Schulman 约翰·舒尔曼

在预训练中,基本上是在训练模仿互联网或网络上的所有内容,包括网站、代码等等。因此,您会得到一个可以生成看起来像来自互联网的随机网页内容的模型。该模型还经过训练以最大化可能性,在这里它必须对所有内容进行概率分配。

目标基本上是根据先前的标记来预测下一个标记。标记就像是单词或单词的部分。由于模型必须对其进行概率分配——我们正在训练以最大化对数概率——因此最终会变得非常校准。它不仅可以生成网络上的所有内容,还可以为所有内容分配概率。

基础模型可以有效地扮演所有这些不同的角色或生成各种不同类型的内容。

当我们进行后训练时,通常会针对更窄范围的行为,我们希望模型表现得像一种聊天助手。这是一个更具体的角色,它试图提供帮助。它不是在模仿一个人。它是在回答你的问题或完成你的任务。

我们优化的是一个不同的目标,更多地是关于产生人类喜欢并发现有用的输出,而不仅仅是模仿来自网络的原始内容。

Dwarkesh Patel 德瓦克什·帕特尔

也许我应该退一步,问这个问题。现在我们有这些模型,它们在充当聊天机器人方面表现得相当不错。从目前这些流程的运作方式退一步,到年底发布的模型将能够做哪些事情?如果我们将所有事情向前推进五年,你认为进展会是什么样子?

John Schulman 约翰·舒尔曼

五年后,这些模型将会变得更加优秀。

Dwarkesh Patel 德瓦克什·帕特尔

以什么方式?

John Schulman 约翰·舒尔曼

即使在一两年内,我们会发现模型可以执行比现在更加复杂的任务。例如,你可以想象让模型完成整个编程项目,而不是只提供如何编写一个函数的建议。你可以想象模型接受高级指令来编码并自主进行文件编写、测试,并查看输出。它甚至可能对此进行迭代。所以,这些任务会更加复杂。

Dwarkesh Patel 德瓦克什·帕特尔

基本上,关键是它可以连续地行动足够长的时间来编写多个文件的代码?现在和过去有什么不同?

John Schulman 约翰·舒尔曼

我认为这将来自对模型进行训练以执行更困难的任务的组合。大多数训练数据更像是逐步进行单个步骤。我希望我们会为训练模型来完成这些较长项目做更多的工作。

这适用于任何类型的训练,比如进行强化学习,学会如何完成这些任务。无论你是监督最终输出还是在每个步骤进行监督,对于执行这些长期项目的任何训练都会让模型变得更好。

由于整个领域都是全新的,我认为在进行这种培训方面有很多低垂的果实(注:low-hanging fruit,指通过简单或基础的改进就能轻松获得显著收益)。这是一方面。

我也期望随着模型变得更好,它们在从错误中恢复或处理边缘情况方面也变得更好。当事情出错时,它们将知道如何从中恢复。

模型将更具样本效率。您不必收集大量数据来教导它们如何重新回到正轨。只需一点点数据或从其他能力的泛化就可以让它们重新回到正轨。 当前的模型可能会卡住或迷失方向。

Dwarkesh Patel 德瓦克什·帕特尔

我想具体了解泛化如何帮助您重新回到正轨。您能多说一点吗?我不确定为什么这两个概念相关联。

John Schulman 约翰·舒尔曼

是的,它们并不直接相关。通常您会有一点数据来完成所有事情。如果您收集了一个多样化的数据集,您将会在其中得到各种各样的东西。

如果您有能够非常好的泛化的模型,即使只是从一两个示例中重新回到正轨,或者在预训练数据中有一两个模型重新回到正轨的示例,该模型将能够从它见过的其他事物中泛化到当前情况。

如果您有较弱的模型,也许只要提供足够的数据,就可以让它们做几乎任何事情。但您可能需要在特定领域或技能上付出很多努力。

对于更强大的模型,它可能只是在没有任何训练数据或任何努力的情况下做正确的事情。

现在这些模型可以协同工作五分钟。我们希望它们能够完成一个人需要一个小时才能完成的任务,然后是一周,再然后是一个月,依此类推。

Dwarkesh Patel 德瓦克什·帕特尔

要达到这些基准,是不是每个基准都需要更多的计算,类似于目前用于预训练的 scaling law?还是说会更简化的过程,直接达到你已经更加高效的样本,然后可以直接进行多年的任务或其他事情?

John Schulman 约翰·舒尔曼

我同意更长期的任务需要更多的模型智能才能做得好,训练成本会更高。除非以非常谨慎的方式设置,或者以某种方式设计实验,否则不会有非常明确的 scaling law。

或许会出现某些阶段转变,一旦达到某个水平,就能处理更长的任务。例如,当人们为不同时间尺度制定计划时,我不确定他们是否使用完全不同的机制。

我们可能会使用相同的心理机制来思考从现在开始一个月、一年或一百年后的情况。我们实际上并不在做某种涵盖特定时间尺度的强化学习,需要担心折现因子之类的事情。

使用语言,您可以描述所有这些不同的时间尺度,然后您可以做一些计划。在当下,您可以尝试朝着目标取得进展,无论是一个月后还是十年后。我不知道这是否是一个阶段转变,但我可能期望模型也是如此,可能存在一些能够在多个尺度上发挥作用的能力。

Dwarkesh Patel 德瓦克什·帕特尔

请纠正我,如果我错了。看起来你在暗示我们现有的模型在每个标记基础上相当聪明。它们可能在每个标记基础上和最聪明的人类一样聪明。阻止它们发挥潜力的是,五分钟后,它们不会继续以与您项目的更广泛目标一致的方式编写代码。

如果情况是一旦您开始这种长期的强化学习训练模式,它立刻增强您持续相对较长时间保持连贯性的能力,那么一旦该模式解锁,我们是否应该立即预测能够达到人类水平?如果不是,那么在我们可以计划一年并执行需要那么长时间的项目之后还剩下什么?

John Schulman 约翰·舒尔曼

我们进入这个领域后会看到什么,进展会有多快,这还不是很清楚。这仍然是不确定的。我不会指望通过进行这样的训练立即解决所有问题。模型还会有其他杂项缺陷,导致它们陷入困境或做出比人类更糟糕的决定。我不指望这一点就能解锁所有能力。但在长期任务能力方面的一些改进可能会产生很大作用。

Dwarkesh Patel 德瓦克什·帕特尔

你认为这种情况合理吗?看起来很可能会有其他原因导致瓶颈吗?我也很好奇这些瓶颈的性质可能是什么。它已经有了所有这些经过预训练的表示形式。现在,由于长期强化学习,它可以长时间连贯地工作。还剩下什么?

John Schulman 约翰·舒尔曼

也许人类专家带来了一些其他经验,可以更好地测试或处理模糊不清的任务。如果我们想要做类似研究的事情,我可以想象到这些考虑因素会起作用。显然,模型的可供性以及它是否能够使用用户界面、与物理世界互动或者获取信息等方面都会存在一些普通的限制。因此,可能会有很多普通的障碍,这些障碍可能不会持续太久,但最初可能会减缓进展速度。

Dwarkesh Patel 德瓦克什·帕特尔

让我们谈谈为这些人工智能设计的网站。一旦它们接受了更多的多模态数据训练,它们会在任何方面与我们为人类设计的网站有所不同吗?需要哪些用户界面?它将如何弥补它们的优势和劣势?它看起来会与我们为人类设计的当前用户界面有何不同?

John Schulman 约翰·舒尔曼

这是一个有趣的问题。我预计,一旦视觉能力得到提升,模型将能够使用为人类设计的网站,因此不会立即需要对它们进行更改。

另一方面,有些网站将会因为 AI 能够使用它们而受益匪浅。我们可能希望为这些网站设计更好的用户体验以供 AI 使用。我不确定具体意味着什么。假设我们的模型在文本模式方面仍然比从图像中读取文本更好,那么你可能希望为模型提供一个良好的基于文本的表示。

你也希望能清楚地知道所有可以互动的事物。但我不指望网络会被彻底重新设计以实现到处都有 API。我们可以让模型使用人类使用的相同类型的 UI。

Dwarkesh Patel 德瓦克什·帕特尔

我想这就是语言模型的重要课程,对吧?它们可以在人类所做的类似条件下行动。

我想回到您之前提到的这个过程能够更加样本高效的观点,因为它可以从预训练经验中学习如何在不同情境下解决困境。您看到的最有力的证据是什么证实了这种泛化和迁移能力?

未来能力模型的重要问题似乎在于泛化程度如何。有什么让你觉得非常有说服力的东西吗?你见过模型学到一些你没有预料到的泛化知识吗?

John Schulman 约翰·舒尔曼

在后训练后肯定发生了一些有趣的泛化实例。

一个众所周知的现象是,如果您使用英语数据进行所有微调,模型将自动在其他语言中表现良好。因此,如果您在英语数据上训练助手,它在西班牙语中也会做出合理的反应。有时,您可能会在回复英语或西班牙语方面得到错误的行为。通常情况下,您会得到正确的行为,这意味着您让它对西班牙语查询做出西班牙语回应。

这是一个有趣的泛化实例,模型只是抓住了正确、有用的个性,然后在不同语言中自动做出正确的事情。

我们已经看到过一些使用多模态数据的版本,在这些版本中,如果你只对文本进行微调,也可以得到与图像相关的合理行为。

在 ChatGPT 的早期阶段,我们试图解决模型理解自身局限性的一些问题。模型的早期版本会认为自己可以给你发送电子邮件,或者叫车之类的。模型会尝试扮演助手的角色,然后说“哦,是的,我当然发送了那封电子邮件。”显然,实际情况并非如此。

所以我们开始收集一些数据来解决这些问题。我们发现,即使只有少量数据,甚至当你将其与其他所有数据混合在一起时,也能解决问题。

我不记得确切的例子数量,但大约是 30 个例子。我们有一小部分示例展示了这种一般行为,解释了模型没有这种能力。这种泛化相当适用于我们没有训练的各种能力。

Dwarkesh Patel 德瓦克什·帕特尔

我仍然想回到这个问题,因为我不确定我是否理解了。假设你有一个经过训练以保持更长时间连贯性的模型。暂且不考虑可能存在的其他瓶颈,到下一个阶段,你是否可能拥有类似人类水平的模型?

我在想一个你可以像与同事互动一样与之互动,并且和与人类同事互动一样好的模型。你可以告诉他们去做事情,他们会去完成。你认为可能存在的能力方面,这种看法有什么问题?

John Schulman 约翰·舒尔曼

很难准确地说不足会是多少。当你今天与这些模型交谈时,除了长期的连贯性之外,它们还有各种弱点。它们也很难真正思考事情或注意你问他们的事情。我不认为仅仅提高一点连贯性就足以实现通用人工智能。我想我无法准确表达哪些主要弱点会阻止它们成为一个具备完全功能的同事。

AGI 2025 计划

Dwarkesh Patel 德瓦克什·帕特尔

看起来,你应该为很快拥有 AGI 的可能性做计划。

John Schulman 约翰·舒尔曼

我认为那是合理的。

Dwarkesh Patel 德瓦克什·帕特尔

如果没有其他瓶颈,那么计划是什么?在接下来的一年或者什么时候,你会拥有 AGI。计划是什么?

John Schulman 约翰·舒尔曼

如果通用人工智能(AGI)比预期到来得早,我们绝对要小心对待。 也许在我们相当确信我们可以安全应对之前,我们可能想要减缓一下培训和部署的速度。

我们需要对它将要做什么以及它能做什么有一个相当好的把握。如果它早于预期出现,我们就必须非常小心。在很多方面,我们对其了解仍然很基础。

Dwarkesh Patel 德瓦克什·帕特尔

小心意味着什么?想必你已经很小心了,对吧?在部署之前,你会进行这些评估。

John Schulman 约翰·舒尔曼

也许意味着不训练更智能的版本,或者在训练时非常小心。你可以确保它被正确“沙盒化”以及一切。也许意味着不大规模部署,或者在部署时小心考虑规模。

Dwarkesh Patel 德瓦克什·帕特尔

让我们设想一个场景,通用人工智能(AGI)明年出现。你不会训练一个更智能的系统,但你会以一种相对谨慎的方式部署它。开发可能不会来自于 OpenAI。AGI 事实上变得比我们预期的要容易,这就是为什么它出现了。

所以你等一下再部署,但现在其他公司具有类似水平的能力。接下来会发生什么?在等待部署的同时,你在等待什么?在这种情景下,每家公司都在做什么?

John Schulman 约翰·舒尔曼

博弈论有点难以深入思考。首先,我不认为明年就会发生这种情况,但进行这种讨论仍然很有用。也许需要两三年的时间。

Dwarkesh Patel 德瓦克什·帕特尔

两三年还是很快的。

John Schulman 约翰·舒尔曼

这仍然是相当快的时间。你可能需要一些协调。为了使事情顺利进行,每个人都需要就部署或进一步训练制定一些合理的限制。否则,就会出现竞争动态,每个人都试图保持领先,这可能需要牺牲安全性。 你可能需要在进行此类训练的大型实体之间进行一些协调。

Dwarkesh Patel 德瓦克什·帕特尔

您将协调暂停部署直到确切的什么时候?直到您弄清楚模型中发生了什么?

John Schulman 约翰·舒尔曼

我们可以暂停进一步培训。我们可以暂停部署。我们可以避免某些可能更危险的培训。我们将为每个人设定一些合理的规则,以限制这些事情。

Dwarkesh Patel 德瓦克什·帕特尔

到底有什么限制?在某个时刻,这种智能内在的潜在能量将被释放。假设两年后我们获得了 AGI。现在每个人都感到恐慌。人工智能公司已经暂停。我们打算等到什么时候呢?

John Schulman 约翰·舒尔曼

我对此没有一个很好的回答。如果我们能够像那样进行协调,那将是一个相当不错的情景。构建这些模型需要大量资金,并且涉及许多复杂的部分。这并不是每个人在家中就能重新创造这些东西的。

考虑到能够训练最大型模型的实体数量相对较少,协调似乎是可能的。我不确定如何在长时间内保持这种平衡,但我认为如果我们达到那个阶段,我们会处于一个良好的位置。

Dwarkesh Patel 德瓦克什·帕特尔

我们会吗?我仍然很好奇,因为我不确定接下来会发生什么。从根本上讲,好处在于你将其推送到服务器,现在我们拥有一堆智能体,或者它们可以自己推送到服务器。现在我们已经让每个人都协调好了,但我不确定在这个世界中接下来该做什么。为什么这样会给我们带来良好的结果?

John Schulman 约翰·舒尔曼

如果我们能够让每个人合理协调,并且觉得我们能够解决有关对准问题的技术问题,那么我们就可以部署。我们将能够部署非常聪明的人工智能,它们可以作为人们意志的延伸,同时又可以防止它们被灾难性地滥用。那将是很好的。

我们可以继续安全地部署这些系统,这将带来许多繁荣和更快速的科学进步阶段。这将是一个良好情景所展现的样子。

Dwarkesh Patel 德瓦克什·帕特尔

这有道理。我对未来几年的一些事情感到好奇。在最理想的情况下,所有这些参与者都同意暂停,直到我们弄清楚我们正在构建的是对齐的系统,而这些系统本身不会试图发动政变,也不会使他人有机会这样做。那样的证据会是什么样子?会是什么样的证据呢?

John Schulman 约翰·舒尔曼

如果我们能够部署比之前系统逐步变得更智能的系统,那将更安全。我希望事情的发展不会演变成每个人都要协调、限制和安全释放东西的情况。那会导致潜在能量的大量积累。

我宁愿我们不断发布比之前稍微好一点的东西的情况。 在这过程中,我们要确保每一次变化对安全性和整体配备的提升。如果事情开始显得有点令人担忧,我们就能够放慢步伐。这是我所期待的。

如果存在更为不连续的跃迁,就会涉及到“你如何知道你所拥有的东西是否安全可发布”的问题。我无法给出通用答案。然而,为了使这更可接受,你可能想要做的事情是进行大量的测试模拟部署,进行某种形式的红队渗透测试。你需要以一种比你真正打算在现实世界中进行的活动更容易失败的方式进行测试。

你需要一个非常良好的监控系统,这样如果部署的系统出现问题,你就能立即检测到。也许你会安排一些机制监视部署的人工智能,观察它们的活动,并寻找问题迹象。

你需要一些深度防御措施。你需要某种“模型本身看起来表现良好,对所有事情都有无可挑剔的道德信心”和“我非常确信它极其抗拒任何严重误用”的结合。此外,你还需要非常良好的监控机制,以便发现任何意外的问题。

Dwarkesh Patel 德瓦克什·帕特尔

在进行长期强化学习或最终开始进行强化学习时,您会在追踪什么?在您广泛部署这些系统之前,您如何能够注意到这种不连续跃迁呢?

John Schulman 约翰·舒尔曼

您希望在训练过程中运行许多评估。

Dwarkesh Patel 德瓦克什·帕特尔

具体来说,知道这种情况可能发生,您认为训练长期强化学习是有意义的吗?或者这只是一个非常低的可能性?您如何看待这个问题?

John Schulman 约翰·舒尔曼

如果您看到许多潜在的可怕能力,您在进行这种训练时应该非常小心。我会说,这并不是我们现在必须害怕的事情,因为目前很难让模型做出任何连贯的动作。

如果它们开始变得非常优秀,我们会认真对待一些问题。我们会进行大量的评估,测试它们是否存在不当行为,主要是为了模型的一致性。我们想要确保它们不会背叛我们或者发生其他不良情况。您可能还想要寻找能力方面的不连续跃升。对于模型的能力,您希望进行大量的评估。

您还需要确保您正在训练的内容没有任何理由让模型背叛您。这似乎并不是最困难的事情。我们使用 RLHF(Reinforcement Learning from Human Feedback 从人类反馈中学习的强化学习)进行训练的方式感觉非常安全,即使模型非常智能。 该模型只是试图生成一个对人类令人满意的消息。除了生成的文本是否被批准之外,它没有关注世界上的其他任何事情。

显然,如果您在进行某项任务,该任务要求模型执行一系列涉及工具的长序列动作,那么在生成最终结果的过程中,模型可能会有一些倾向做许多对人类来说毫无意义的怪异动作。然而,它并不一定有任何动机除了在最终产出时产生非常高质量的输出。

关于“工具收敛”的旧观点,有这样的说法:模型希望控制世界,以便最终生成一些令人惊叹的代码。

如果您让它编写一个 Flask 应用程序,它可能会说:“哦,是的,首先我需要控制世界。”在某种程度上,很难想象为什么对于编码应用程序这种任务,您需要首先控制世界。当然,如果您分配一个任务,比如“赚钱”,那么也许这会导致一些危险行为作为一种工具性目标。

教模型推理

Dwarkesh Patel 德瓦克什·帕特尔

在我们回到那个话题之前,让我们退后一步,谈谈今天的 RLHF 系统和一切。我确实想进一步讨论这一点,因为这很有趣。

对于今天的 RLHF 及其对这些模型的影响,您如何从人类心理学的角度对其进行描述?它是一种驱动力吗?是一个目标吗?是一种冲动吗?在心理学上,它属于什么类型?它以何种方式发生变化?

不仅仅是聊天机器人的人设,而是“不要那样说话,改成这种方式说话”或者“不要输出那种输出结果”。

John Schulman 约翰·舒尔曼

在人类中可能存在与驱动力或目标类似的类比,你试图朝着一组特定状态而不是其他状态前进。我认为我们对于驱动力或目标的概念还涉及其他元素,比如实现目标时获得的满足感。

这些与学习算法更相关,而不是模型在运行时执行时所做的事情,尤其是当你拥有一个固定模型时。可能有一些类比,尽管我不确定相似程度。

在某种程度上,这些模型确实以某种有意义的方式具有驱动力和目标。例如,在 RLHF 的情况下,您试图通过一个奖励模型来最大化人类的认可,模型只是试图产生人们会喜欢和认为是正确的东西。

Dwarkesh Patel 德瓦克什·帕特尔

我听说过两种关于利用内部对话来提高推理能力的想法。至少公开场合下,我见过两种想法,我很好奇你认为哪一种更有前途。

一种是模型通过一系列可能的思维过程从其输出中学习,并学会遵循导向正确答案的路径。然后在部署前对其进行训练。另一种方法是在部署过程中利用大量计算来进行推理。这种方法涉及模型在部署时与自身进行对话。

您期待哪种方法更接近模型在推理方面训练得非常好的方式?这是因为它只是在进行一堆推理云吗?还是因为您已经训练它在这方面表现良好了呢?

John Schulman 约翰·舒尔曼

您可以将推理定义为在测试时间需要某种计算或可能需要某种推理的任务。根据定义,推理将是需要测试时间计算和逐步计算的任务。另一方面,我还希望在训练时进行练习会收获很多。因此,我认为将这两种方法结合起来会获得最佳结果。

Dwarkesh Patel 德瓦克什·帕特尔

目前,模型学习的方式有两种。

一种是在训练中,无论是预训练还是后训练。 训练中大部分计算都花在了预训练上,快速浏览数万亿标记,涉及数万亿标记的信息。如果让人类接受这种训练,他们只会感到非常困惑。这并不是一种非常高效的学习方式。

另一种方法是上下文学习。 当然,这种方法更有效率,但它会随着每个实例的出现而被破坏。

我想知道您是否认为是否存在一种介于这两者之间的路径,即不会在每个实例中被破坏,但也不像简单地浏览数万亿标记那样轻率。一种更具有目的性和主动性的学习方式。

John Schulman 约翰·舒尔曼

您是指模型具有某种中期记忆吗?不会完全适应上下文,但规模要比预训练小得多?

Dwarkesh Patel 德瓦克什·帕特尔

可能是记忆。我并没有上下文。当我尝试准备这次对话时,我会考虑我应该了解的内容,仔细阅读它,可能会在阅读时思考。我不确定这在模型中自然对应的是什么。那会是什么样子?

John Schulman 约翰·舒尔曼

我理解了。所以不仅仅是记忆,还包括在某个特定任务中略作专业化或者在某个特定项目上付出很多努力。

Dwarkesh Patel 德瓦克什·帕特尔

我甚至不确定这是否属于专业化。更多的是“我不理解这部分,所以让我更深入地研究一下。我已经理解了这部分。”我想这更类似于针对你现有知识库的专业化。

John Schulman 约翰·舒尔曼

我明白了。所以不仅仅是对大量相关来源进行训练并在某个特定领域进行微调。还包括通过自己的推理发展一些知识,利用某种内省或自我认识来弄清楚需要学习什么?

Dwarkesh Patel 德瓦克什·帕特尔

是的。

John Schulman 约翰·舒尔曼

这确实感觉像是今天系统中缺失的一部分。人们并没有过于强调在大规模训练之间的这个中间环节 ——在这个环节中,你会生成一个能够像已部署模型一样完成所有任务的单一快照模型,另一方面是上下文学习。

部分原因是我们一直在增加上下文长度,以至于对此没有足够的激励。 如果你可以使用十万甚至一百万的上下文,那实际上已经相当多了。在很多情况下,这并不是瓶颈所在。

我同意,你可能还想要补充一些微调的操作。微调和上下文学习带来的能力可能有一定的互补性。我认为我们希望构建一些在线学习系统,同时具备一些认知技能,比如自我反省自身知识并寻找填补空白的新知识。

Dwarkesh Patel 德瓦克什·帕特尔

这些都是同时进行的吗?这只是一种新的训练机制,所有这些事情可以同时发生,无论是长期计划还是这种类型的训练?

它们是相互分开的吗?模型是否足够智能,既可以进行自省,又可以在更长的时间跨度上行动,以便在长期任务中获得足够的奖励?

John Schulman 约翰·舒尔曼

如果你在进行某种长期任务,那么你在执行任务的同时也在学习,对吗?

执行涉及很多步骤的任务的唯一方法是在执行任务过程中更新学习和记忆。短期记忆和长期记忆之间存在一个连续体。

当我们开始更多地关注长期任务时,我认为对这种能力的需求会变得更加明显。在某种程度上,将许多内容放入上下文中会让你走得更远,因为我们现在拥有非常长的上下文。你可能还希望进行微调之类的事情。

关于内省和进行主动学习的能力,这可能会自动由模型知道自己所知道的能力而产生。模型确实对自己所知道的有一定程度的校准。这就是为什么模型不会产生过于严重的幻觉。

它们对自己的局限性有一定的理解。同样的能力也可以用于类似主动学习的任务。

通往 ChatGPT 之路

Dwarkesh Patel 德瓦克什·帕特尔

有趣。我想退后一步,问问你自己的历史,至少在 OpenAI。你领导了 ChatGPT 的创建。

在什么时候你意识到这些大型语言模型是前进的道路?什么时候你意识到聊天机器人或某种指导它们的方式会很有用?从这成为你主要关注的焦点开始,整个过程是怎样的,请给我讲一下。

John Schulman 约翰·舒尔曼

在 ChatGPT 之前,OpenAI 拥有这些指令跟随模型。那里的想法是我们有基本模型,人们可以用复杂的方式提示它们。但是它们也很难启动。它们基本上是根据自动补全完成的,所以你必须设置一个非常好的提示并附上一些例子。

OpenAI 的人们当时正在努力简化基本模型的提示方式。所以,如果你只是写下一个问题,它会回答这个问题,而不是给你更多问题或其他内容。因此,我们有了这些指令跟随模型,它们类似于基本模型,但使用起来更容易一些。这些是最早部署在 API 中的模型。在 GPT-3 之后,这些模型成为下一代模型。

与此同时,肯定有很多人在思考聊天机器人。Google 发表了一些相关论文,比如 LaMDA 和更早的 Meena。它们拥有这些聊天机器人,这更像是一种非常专注于聊天任务的基本模型。在这些论文的示例中,这些模型更多用于有趣的应用,其中模型会扮演一些角色并假装成那个角色。它并不像那种可以帮我重构代码的那种功能型聊天机器人。

肯定有人在思考聊天方面。我之前曾参与过一个名为 WebGPT 的项目,该项目更多地关注利用网络浏览和检索来进行问答。在进行问答时,真的希望像在聊天一样。你总是想提出跟进问题,有时模型应该提出澄清问题,因为问题本身含糊不清。

在我们完成了第一个版本之后,很明显下一个版本应该是会话式的。因此,我们开始致力于构建会话式聊天助手。这是基于 GPT-3.5 构建的,该模型是在 2022 年初进行训练的。该模型在语言和编程方面表现得相当出色。我们很快意识到它实际上在编程帮助方面表现得非常好,这是我们感到兴奋的其中一点。

我们在大部分时间里致力于这个项目。其中我们还加入了浏览功能,尽管后来我们降低了这一功能的重要性,因为模型本身内部的知识非常出色。浏览并不是它最有趣的特点。我们曾让朋友和家人试用一段时间,同时我们也在考虑进行公开发布。

事实上,GPT-4 在那一年的八月完成了训练。OpenAI 的旗舰强化学习项目是指令跟随项目,因为这些模型被部署到生产环境中。GPT-4 的第一次微调使用了整个技术栈。这些模型表现得非常出色,看到指令跟随微调 GPT-4 后,每个人都变得非常兴奋。

这些模型确实非常出色。它们有时会给出令人惊叹的输出,但显然模型也相当不可靠。有时它会产生很多幻觉,有时会给出相当不合理的输出。因此,很明显它还不够成熟,但显然它非常出色。

在那之后,人们暂时忘记了聊天,这是一个另类分支。我们继续推动这个项目,并最终混合了所有的数据集,包括指令数据和聊天数据,试图得到一个兼具两者优点的东西。聊天模型显然更易于使用。

从模型知道自己的局限性方面来看,它自动地表现出更加明智的行为。这实际上是我们开发过程中让我兴奋的事情之一。我意识到,人们认为是语言模型的缺陷之一,比如明显的幻觉,实际上并不能完全修复,但你可以通过相当直接的方法取得很大进展。

另一个有关聊天的事情是当我们拥有这些指令模型时。"完成这段文字,但要友好或有帮助"的任务是一个非常模糊的任务。这个任务对模型和应该进行数据标注的人都很困惑。相比之下,在聊天中,人们有一种直观的感觉,知道一个有帮助的机器人应该是什么样子。因此,人们更容易理解模型应该做什么。结果,模型具有更一致的个性,并且更容易以稳健的方式得到相当明智的行为。

Dwarkesh Patel 德瓦克什·帕特尔

有趣的问题。是否任何人都可以使用你们的公开可用的微调 API 来制作 ChatGPT 呢?

John Schulman 约翰·舒尔曼

不完全是这样。我记不清楚那时可供微调的模型有哪些。假设我们当时提供了 3.5 版用于微调,那你可能可以制作出相当接近的东西。我认为你不太可能只用纯人工编写的数据进行一次微调迭代。你可能需要进行多次迭代。

如果不采用 RL(强化学习),而我们是这么做的,那么你可能需要一种迭代式的监督微调,其中人类编辑模型生成的输出。如果你只训练于人类生成的数据,即使这些数据质量很高,对于模型来说也很难完美拟合,因为这可能是模型能够输出的内容。你需要做一些更像 RL 的迭代过程。如果你那样做了,你可能会相当接近,但这并不容易。

我们还有另一个使用 RL 训练的指令遵循模型,在 ChatGPT 发布前不久发布。如果你在那个模型上加上聊天封装器,你可能会得到相当接近的结果,但那个模型在某些方面有一些不同的优势。那个模型擅长写作和诗歌,但在了解自己的局限性、事实性等方面并不那么出色。

Dwarkesh Patel 德瓦克什·帕特尔

回到 3.5 版本之外,我记得你说过你对 GPT-2 印象非常深刻。与你 2019 年的预期相比,AI 的进展是更快还是更慢?

John Schulman 约翰·舒尔曼

自从 GPT-2 之后发展得比我预期的更快。我当时非常认同扩展和预训练是一个好主意。

但当 GPT-2 完成时,我并不完全认同它会彻底改变一切。直到 GPT-3 之后,我才改变了我和团队的工作方向。 在那之后,我们聚在一起说:“哦,是的,让我们看看我们可以在这个语言模型领域做些什么。”但在 GPT-2 之后,我还不太确定。

Dwarkesh Patel 德瓦克什·帕特尔

假设我们之前讨论的与 RL 相关的内容开始在这些更智能的模型上表现更好。在未来,用于预训练和后训练的计算资源占比会明显倾向于后训练吗?

John Schulman 约翰·舒尔曼

有一些支持这一观点的论点。目前这个比例是相当倾斜的。你可以认为模型生成的输出质量要比网上大部分内容更高。因此,让模型自主思考而不仅仅是训练来模仿网上的内容更合理。因此,我认为有一个基本原理支持这一观点。

我们通过后训练获得了很大的收益。因此,我预计我们会继续推动这种方法论,可能会增加我们投入的计算资源量。

Dwarkesh Patel 德瓦克什·帕特尔

当前的 GPT-4 的 Elo 分数比最初发布的那个高出大约一百分。这完全是因为你所说的,这些改进是通过后训练带来的吗?

John Schulman 约翰·舒尔曼

是的,大部分是由于后训练,有许多不同的、独立的改进方向。

我们考虑数据质量、数据量。需要对整个部署和收集新数据的过程进行更多迭代。同时,改变所收集的注释类型也很重要。这些因素共同作用,最终会带来相当可观的有效计算力提升。

Dwarkesh Patel 德瓦克什·帕特尔

这是一个巨大的提升。非常有趣的是,从后训练上还有这么多改进空间。

什么是一个好的强化学习研究者?

Dwarkesh Patel 德瓦克什·帕特尔

擅长这种强化学习研究的人通常具有什么特质?我听说这种工作非常苛刻。你是如何获得直觉,从而找到这些操作数据和设置环境的方法?

John Schulman 约翰·舒尔曼

我在这个领域有相当多的经验,从强化学习算法(我从研究生时代就开始研究)到数据收集、注释流程以及与语言模型的互动。

我会说我涉足过这些领域,那些在这类研究中表现出色的人通常对整个工作流程有一定了解,并对其中的各个部分都充满好奇心。你希望既要有经验主义精神,让实验来更新你的观点,也要从第一性原理出发思考。假设学习有效,收集什么类型的数据会是理想的?类似这样的事情。

Dwarkesh Patel 德瓦克什·帕特尔

因为自从 GPT-4 以来似乎没有出现明显更好的模型,有一种假设认为我们可能正在遇到某种瓶颈。这些模型实际上并没有那么好地泛化,你将遇到一个数据壁垒,在那之后,通过记忆大量的预训练数据获得的能力将无法帮助你获得比 GPT-4 更聪明的东西。

你认为这个假设是错误的吗?我们已经谈到了一些泛化的实例,比如从西班牙语到英语。我想到的一个例子是从编码到语言推理的转移。如果你在大量代码上训练,那么它会更擅长语言推理吗?事实是否确实如此?

你是否看到不同模态之间的积极转移?如果你在大量视频和图像上训练,它会从合成数据中变得更智能吗?或者看起来获得的能力极为局限,局限于你放入训练语料库的确切标签和数据类型?

John Schulman 约翰·舒尔曼

首先,我们是否即将遇到数据壁垒?我认为不应过分关注自 GPT-4 发布以来的时间,因为训练这些模型和准备训练新一代模型需要一定时间。

我不会过分解读这一事实。虽然确实存在来自有限数据量的一些挑战,但我不认为我们会立即遇到数据壁垒。然而,随着我们接近这个阶段,我预计预训练的性质会在一定程度上随着时间的推移而发生变化。

就来自不同类型预训练数据的泛化而言,我认为在这类问题上进行科学研究是相当困难的,因为你无法创建那么多预训练模型。

也许你无法训练一个像 GPT-4 那样大小的模型并在那个规模上进行消融研究。也许你可以训练大量的 GPT-2 大小模型,甚至一种不同数据混合的 GPT-3 大小模型,然后观察结果。

我不清楚有关涉及代码数据和推理表现等方面的消融研究的任何公开结果。我对这些结果非常感兴趣。

Dwarkesh Patel 德瓦克什·帕特尔

我对这个问题很感兴趣。其中一件事是,模型随着规模变大而变得更智能。对一个类似 GPT-2 规模的模型进行消融研究,表明没有太多的迁移,这是否会提供证据,说明在一个类似 GPT-4 规模模型中在相似领域上的迁移程度?

John Schulman 约翰·舒尔曼

是的,你可能不能得出这样的结论,即如果在 GPT-2 规模上迁移失败,那么在更高规模上也会失败。可能是对于更大的模型,你学到了更好的共享表示,而较小的模型则必须过多地依赖记忆。较大的模型可以学会如何进行正确的计算。我期望这在一定程度上是正确的。

Dwarkesh Patel 德瓦克什·帕特尔

这可能有一个非常简单的答案。你在相同数据量上训练更大的模型,它们变得更聪明。或者要达到相同智能水平,你只需要用更少的数据来训练它们。为什么会这样?它有更多参数,看到的东西更少,现在却同样聪明。为什么会这样?

John Schulman 约翰·舒尔曼

我觉得没有人对参数数量的 scaling law 有一个很好的解释。我甚至不知道这个问题的最佳心智模型是什么。很明显,如果你有一个更大的模型,你拥有更大的容量。所以最终你应该能够获得更低的损失。

为什么更大的模型更加样本高效?我可以给你一个简略的解释。你可以说模型是由执行计算的不同电路组成的集成。你可以想象它是在并行进行计算,输出是它们的加权组合。如果你有更宽的宽度…实际上,宽度在某种程度上类似于深度,因为在残差网络中,深度可以类似于宽度,可以更新残差流中的内容。

在更大的模型中,你可以并行学习所有这些不同的计算。因此,你拥有更多的计算单元。这样一来,其中一个计算单元猜对的机会就更大,它会被加权提升。

有一些算法是这样工作的,比如混合模型或乘法权重更新算法,其中你有一种——我不想说是专家混合,因为那意味着不同的东西——基本上是带有一些学习门控的专家加权组合。

我实际上说错了一点,但你可以想象类似的情况。拥有一个更大的模型能让你有更多机会找到正确的函数。当然,并不是完全不相关的函数,而是更像一个图书馆,你可以以某种方式将这些函数链接在一起。这里有一些可组合性。

所以我会说,一个更大的模型拥有更多不同计算的库,其中包括许多目前没有在使用中,但有更多的空间来寻找执行有用操作的电路。

保持人类参与

Dwarkesh Patel 德瓦克什·帕特尔

从当前的研究问题中退后一步,我想了解接下来几年会发生什么的模态场景。在谈话开始时,我们谈到了它进展得非常快的情况,但让我们只考虑模态场景。

你在某个阶段解锁了长时间跨度的强化学习,但正如你所说,可能存在其他瓶颈。发生了什么?这些模型有多优秀?它们是如何部署的?还有哪些其他模态是它们的一部分,以及这些模态在什么阶段被解锁了?我想了解你对接下来几年的整体展望是什么。

John Schulman 约翰·舒尔曼

我期望随着时间的推移或很快会添加新的模态。我期望通过预训练和后训练的结合,能力通常会不断提升,这将开启新的用例。

现在,人工智能在经济中仍然不占据很大比重。它可以帮助的工作数量相当有限。

我预计随着时间的推移,这个比例会增加,不仅是因为模型的改进,还因为人们会想出如何将其整合到不同的流程中。 因此,即使我们只是保持模型在当前状态,你仍会看到它们的使用方式有很大增长。

我希望人工智能能够被更广泛地使用,并用于更加技术复杂的任务。我之前提到了编程的例子,可以做更长期的项目,同时也可以帮助各种类型的研究。

我希望我们可以利用人工智能以各种方式加速科学发展,因为潜在地,这些模型可以理解某一领域内的所有文献,并能够筛选大量数据。这是一个人类无法耐心做到的事情。

我希望形式因素会使人们仍然在掌控所有这一切,并且您有可以指导和指向许多不同问题对您有用的助手。每个人都会有所有这些人工智能帮助他们做更多事情并完成更多任务。

Dwarkesh Patel 德瓦克什·帕特尔

显然,在某个时候,他们将会在他们想做的任何事情上比其他人更优秀。那个过程会是什么样子?现在,他们显然只是在帮助您。在某个时候,他们将能够为您做事情,甚至可能为您管理整个公司。这个过程会顺利吗?

那时,希望我们有足够与用户对齐的系统,以便他们可以指望公司按照他们期望的方式运行。

John Schulman 约翰·舒尔曼

我们可能不希望立即让 AI 来管理整个公司。即使这些模型足够好以至于能够成功经营业务,我们可能希望有人来监督这些重要决策并做出决策。在某种程度上,可能会有选择的余地。

我认为人们仍然会对他们想让他们的人工智能从事什么有趣的追求有不同的兴趣和想法。人工智能不一定有任何内在的欲望,除非我们将其放入系统中。 因此,即使人工智能变得非常有能力,我希望人们仍然是决定人工智能最终做什么的驱动力。

Dwarkesh Patel 德瓦克什·帕特尔

我想知道经济均衡是否与此相去甚远,即在一家公司中是否存在类似 Amdahl's Law(阿姆达尔定律)的情况。过程中最慢的部分将成为瓶颈。

即使人工智能使公司的所有非人类部分效率提高了 10 倍,公司仍然受到该步骤的限制。如果一家公司决定通过让人类参与所有真正需要人类监督的事情来继续发展,那么它们将被其他公司击败。 如果一个国家决定走这条路线,其他国家将超越它。

我想知道这是否是一个保持人类参与的可持续计划。

John Schulman 约翰·舒尔曼

如果我们想让人类参与其中,这似乎是合理的,但结果表明,任何有人类参与的公司都被那些没有人类参与的公司所击败,那么显然你需要某种规定,禁止在整个公司运营中没有人类参与。

Dwarkesh Patel 德瓦克什·帕特尔

但是在任何一个国家,更不用说全世界,都有这么多公司。我想知道,是不是更好的做法是对公司进行监管,并要求在重要流程中保留人类,但这样一来,你就必须定义什么是重要流程。

你必须监控每家公司,并且还必须得到每个拥有公司的国家的合作。如果这是一个问题,是不是应该在模型部署之前就解决好,这样,如果你决定建立公司并依赖这些模型,它基本上可以按照你希望的方式运行,而不需要人在其中进行干预?

这个问题有意义吗?我只是在想,在这种情况下,我们如何确保每家公司都有人参与监控?如果中国决定不这样做会发生什么?

John Schulman 约翰·舒尔曼

你要么让每个国家同意这一监管制度,要么需要所有的模型基础设施或模型提供者同意这种要求。

这肯定不是件简单的事情。这是一个往前看的想法,所以在看到任何类似的东西之前,很难想象这样的世界。

例如,我们是否确信由 AI 管理的公司在各个方面都更好?我们是否认为它们在大多数情况下更好,但偶尔会出现故障,因为 AI 在某些方面仍然样本效率较低?特别是在处理非常奇怪的情况时。

由 AI 管理的公司可能实际上具有更高的尾部风险,因为它们更有可能大规模故障。可能会有一些实际问题需要解决,这将决定事情如何发展。也许如果你要求人们对各种责任负责,这也会在一定程度上改变激励机制。

假设事实证明 AI 在管理一切方面更胜一筹,而且它们完全善良。假设我们完全解决了对齐问题,并且它们比人类更擅长对人负责。那么也许由 AI 管理公司是可以接受的。但这种情况相当遥远。

我们更可能处于这样一种情况:AI 在短期内看起来更好,但它们仍然存在一些严重问题。实际上,实际考虑会更倾向于让人类参与,至少在不久的将来是这样。

Dwarkesh Patel 德瓦克什·帕特尔

所以这是我们今天必须处理的一个问题,即与 RLHF 相关。您必须跨越许多不同的人类对偏好进行汇总。随着未来更强大的系统的出现,这种情况可能会更加明显。

但当您说我们希望这些最终将完全取代人类成为公司一部分的 AI 系统是对齐的,这是什么意思呢?这是否意味着它们基本上会按照用户的要求去行动?这是否意味着它们必须产生我们作为 OpenAI 利益相关方满意的某种全局结果?具体而言,这意味着什么?

John Schulman 约翰·舒尔曼

如果这些模型被用于这些更高风险的用例,那么我们将不得不以一种与我们现在截然不同的方式考虑 RLHF。我们现在还不太准备好,或者当前的方法可能还不完全足够。我们需要在涉及的不同利益相关者的需求之间做出妥协。

我们有这份文件,我们正在发布名为《Model Spec》的文件。这是关于我们希望我们的模型在 API 和 ChatGPT 中的行为方式。我们试图讨论这个问题,涉及到不同的利益相关者,有时候他们可能会有冲突。

在我们的情况下,我们将利益相关者视为最终用户(坐在 ChatGPT 或其他应用程序前的人)、开发人员(使用 API 的人,可能正在为他们的应用程序提供服务的其他最终用户)、平台(OpenAI,我们不希望模型使我们面临法律风险)以及其他人类(包括不是用户或客户的人)。

显然,用户可能要求模型做一些我们认为对其他人有害的事情。我们可能不得不拒绝。顺便说一下,这并不一定是优先顺序。这只是利益相关者的四个左右类别。实际上,将来也可以说,模型本身。我们还没有达到那个阶段。

无论如何,我们有这些不同的利益相关者。有时他们有冲突的要求。我们必须做出一些决定来解决这些冲突。如何解决这些冲突并不总是显而易见。我们必须权衡利弊,基本的启发式方法是我们大多数时候希望模型遵循您的指示,并对用户和开发人员有所帮助。

但当这影响到其他人的幸福或生活方式时,这就成了问题,我们必须阻止某些类型的使用。我们大多希望模型只是人们意愿的延伸并执行他们所说的话。我们不想显得太过家长式。我们希望保持中立,不对人们强加我们的观点。我们大多希望让人们自由使用模型。

Dwarkesh Patel 德瓦克什·帕特尔

我有机会提前阅读 Spec。这是一个关于规格说明书内容如何转化为模型本身行为的问题。我对权衡取舍的合理性印象深刻。我相信实际的边界案例是明确说明的,而不是那些显而易见的事情。在这种情况下,您确实在处理边界案例。

John Schulman 约翰·舒尔曼

我们希望它是非常具体可操作的,而不仅仅是一堆听起来不错的原则。每个示例都向您介绍一些关于一些不明显情况的信息,并通过对该情况的推理进行解释。

研究现状和优势

Dwarkesh Patel 德瓦克什·帕特尔

关于研究本身的状况,我有几个问题。社会科学领域著名地很难复制实验结果。有一个问题涉及到有多少真正的科学研究,以及有多少是制造的、定制的实验。当你看一般的机器学习论文时,它是非常坚实的文献,还是经常感觉像社会科学中的 p-值挖掘一样?

John Schulman 约翰·舒尔曼

每个人都对机器学习文献有自己的抱怨。总的来说,我认为这是一个相对健康的领域,特别是与社会科学等其他领域相比。它主要以实用性为基础,致力于让事情运转起来。如果你发表了一些不容易复制的东西,人们很快就会忘记它。

通常认为,你不仅仅是报告某人论文中的数字。你还会尝试重新实现他们的方法,并在相同的训练数据集上将其与你的方法进行比较。如果你发表的方法很难实现或者很挑剔,它们往往会被遗忘。

因此,人们实际上经常试图开源他们的工作。还存在各种不利的激励措施。人们通常会被激励使他们所比较的基线方法变差。还有其他一些轻微的病态现象,比如试图在数学上使自己的方法看起来复杂。

总体而言,我觉得这个领域确实在取得进展。我希望看到更多关注科学和试图理解事物的努力,而不仅仅是在基准测试中进行“爬山”和尝试提出新方法。 最近这方面已经有了相当多的工作,我们可以做更多。我认为这是学者们值得努力的方向。

稍微有些不同的是,我会非常兴奋地看到更多关于利用基础模型进行模拟社会科学研究的研究。这些模型对整个世界都有一个概率模型,你可以设置一个模拟问卷调查或对话,然后看看任何东西之间是如何相关的。 无论你能想象到什么特征,你都可以看到它们如何与其他特征相关。通过以不同方式提示基础模型并查看相关性,人们能否复制社会科学中一些更显著的结果,如道德基础,这将是非常有趣的一件事情。

Dwarkesh Patel 德瓦克什·帕特尔

那个斯坦福实验是什么?阿什遵从性实验?如果能够用语言模型来复制这个实验,那将会很有趣。这个实验非常有趣。

注:斯坦福监狱实验(Stanford Prison Experiment)研究了权力和环境对人类行为的影响,揭示了角色扮演和环境塑造在行为极端化中的作用。而 阿什遵从性实验(Asch Conformity Experiments)则探讨了社会压力对个人判断的影响,展示了个体在群体压力下的从众行为。两个实验都对心理学和社会行为研究有着深远的影响,尽管斯坦福监狱实验在伦理方面引发了较大争议。

我想问一下关于大型实验室进行的其他研究。其中有多少是增加或减少获得特定结果所需的计算量作为实际计算倍增器,而有多少只是使学习更加稳定并构建基础设施?

我想问的更广泛的问题是,自 GPT-4 问世以来,是否感觉使用相同的计算量就能训练出更好的模型?或者感觉你已经确保学习过程能够更好地进行并以更可扩展的方式实现 GPT-5,但现在并不是说我们可以用 GPT-3.5 的预算来训练 GPT-4?

John Schulman 约翰·舒尔曼

在提高效率方面肯定一直有进展。每当你有一个一维性能指标时,你会发现不同的改进可以相互替代。你可能会发现后训练和预训练都会改善指标。它们会有略有不同地提高指标的特征。

但归根结底,如果你只有一个数字,它们两者都会在某种程度上相互替代。对于像人类评估这样的指标,人类更倾向于哪个,我们在预训练和后训练方面确实取得了很大进展,提高了性能。

Dwarkesh Patel 德瓦克什·帕特尔

关于 RLHF 的几个快速提问。显然,RLHF 对于使这些模型有用是很重要的。也许“lobotomized(脑叶切除)”的描述并不准确。

然而,在某种意义上,所有这些模型一旦以聊天机器人的形式呈现,它们说话的方式非常相似。它们真的想要“delve”(深入探讨)事物。它们倾向于将事物归纳成要点。它们通常似乎有一种正式而乏味的说话方式。

有人抱怨它们缺乏创意。就像我们之前讨论的,直到最近它们才能做押韵的诗歌,而无法做不押韵的诗歌。这是否是目前 RLHF 的特殊方式造成的结果?如果是的话,是因为评委是谁?是因为损失函数是什么?为什么所有聊天机器人看起来都是这样?

John Schulman 约翰·舒尔曼

我认为在训练过程的具体执行方式上存在相当大的变化空间。我们正在积极努力改进,使写作更生动有趣。我们已经取得了一些进展,比如改善了 ChatGPT 的个性。当你试图与它聊天时,它更有趣,更不呆板。

一些词汇的使用方式是个有趣的问题,比如“delve”这个词。最近我发现自己也在使用这个词。我不知道这是不是从模型身上传染给我的。

注:“Delve”这个词从古英语的“delfan”演变而来,原意为“挖掘”。随着时间的推移,它的含义扩展到了“深入研究”或“探讨”的现代用法。这个词的发展反映了语言如何随着文化和认知的变化而不断演变和丰富。

实际上,还可能出现一些有趣的影响,即在语言模型和提供者之间发生无意的知识蒸馏。 如果你雇佣某人去执行一个标注任务,他们可能只是将任务输入到一个模型中。他们可能会启动他们最喜欢的聊天机器人,输入任务,让模型执行,然后再复制粘贴回来。这可能解释了一些趋同现象。

我们看到的一些现象只是人们喜欢的。人们喜欢项目符号。他们喜欢结构化的回答。人们通常喜欢从模型获得的大量信息。

对于到底是特定选择和设计的后训练过程的怪癖,还是实际上固有于人们真正想要的,还没有完全清楚。

Dwarkesh Patel 德瓦克什·帕特尔

它似乎比一些人想要的更啰嗦。也许只是因为在标注阶段,评分者更喜欢更啰嗦的答案。我想知道这是否是因为它是如何预训练的,停止序列并不经常出现,它真的想要继续下去。

John Schulman 约翰·舒尔曼

在标注中可能存在一些偏见,导致冗长的回答。我们往往是逐条训练,而不是整个对话。如果你只看到一条消息,那么只有一个澄清问题,或者可能只是一个简短的回复并邀请进行后续交流的内容,看起来会比包含所有可能性的内容更不完整。

还有一个问题是,人们的偏好是否会根据模型输出的速度而改变。显然,如果你坐在那里等待令牌出现,你会更喜欢它言之有物。但如果它立即向你提供一大堆文本,也许你并不在意其中是否有很多废话或你要浏览的内容。你更愿意一次性全部看到。

Dwarkesh Patel 德瓦克什·帕特尔

奖励模型是一个非常有趣的产物,因为它是我们拥有的最接近人们所想和所偏好的聚合物。我在考虑更加智能的模型。有一个希望是,你可以简单地向其提供一份非微不足道且不明显的愿望清单,就像是《联合国人权宣言》。

另一方面,我记得你提到过我们许多偏好和价值观非常微妙,因此最好通过成对偏好来代表它们。当你考虑到 GPT-6 或 GPT-7 水平的模型时,我们是给予它更多书面指令,还是仍然在使用这种潜意识偏好呢?

John Schulman 约翰·舒尔曼

这是个很好的问题。这些偏好模型确实学会了很多关于人们偏好的微妙之处,这些东西很难用说明书表达清楚。显然,你可以编写一本包含大量比较示例的说明书。这就是《Model Spec》的作用。它包含很多示例并附有一些解释。目前并不清楚描述偏好的最佳格式是什么。

我猜想,无论你从捕捉模糊偏好的大型数据集中提取出什么,你都可以将其提炼为一个较短的文件,大致捕捉到其中的思想。更大的模型确实会自动学习很多人们可能会发现有用和有帮助的概念。它们会拥有一些复杂的道德理论,可以紧紧抓住其中。当然,仍然有很大的空间可以拥抱不同的风格或不同的道德观。

因此,如果我们要编写一个文档,如果我们要调整这些模型,我们正在紧紧抓住一个特定的风格、一个特定的道德观。你仍然需要一份相当长的文件来准确捕捉你想要的内容。

Dwarkesh Patel 德瓦克什·帕特尔

后训练模型的独特优势有多大?目前,很多公司通过他们的模型规模等方面区分自己。对于那些已经摸清了你之前提到的所有关于这些数据的繁琐性的人来说,这是否将成为一个巨大的优势?

John Schulman 约翰·舒尔曼

由于这是一个非常复杂的操作,需要很多熟练的人才去做,所以有一定程度的优势。这需要很多隐性知识和组织知识。

通过后训练,要创建一个真正具备人们关心的所有功能的模型是相当复杂的。 这需要相当复杂的努力和大量的研发积累。这使得它在一定程度上成为一种优势。立即搭建这个模型并非易事。似乎那些投入最认真的预训练工作的公司也在进行最认真的后训练工作。

有一定可能性复制或启动更多这样的努力。也有一种力量使得这种壁垒变得不那么难以逾越。你可以提炼模型,或者拿别人的模型克隆输出。你可以使用别人的模型作为衡量标准来进行比较。

那些更有影响力的人可能不会这样做,因为这违反了服务条款政策。这也会影响他们的自尊。但我预计一些较小的参与者可能会这么做来起步。这在很大程度上使你跟上了发展的步伐。

Dwarkesh Patel 德瓦克什·帕特尔

这会有助于打破优势壁垒。中位评估者是什么样的?他们主要来自哪里?他们的政治立场如何?他们的知识水平如何?

John Schulman 约翰·舒尔曼

中位评估者的情况变化很大。我们确实雇佣了具备不同技能的评估者来完成不同类型的任务或项目。一个合理的思维模型就是看看在 Upwork 和其他类似平台上的人群。观察那些从事远程工作的人中有哪些在做零工。

这是一个相当国际化的群体。美国有相当数量的人。我们针对不同类型的标注任务雇用不同群体的人,比如我们是更侧重于写作还是 STEM 任务。从事 STEM 任务的人更有可能来自印度或其他中等或中低收入国家。从事英语写作和作文的人更倾向于在美国。

注:STEM 是 Science(科学)、Technology(技术)、Engineering(工程)和 Mathematics(数学)四个领域的缩写。STEM 任务通常是指那些旨在提高学生和工作者在这些领域的技能和知识的活动和项目。

有时候我们需要为一些项目雇用不同领域的专家。一些人非常有才华,甚至我们发现他们在执行这些任务上至少和我们这些研究人员一样出色,而且比我们更加细心。我可以说,我们现在拥有的人员非常熟练且责任心强。

Dwarkesh Patel 德瓦克什·帕特尔

关于高原叙事,我听说过的一件事情是,这些模型的许多能力帮助您处理特定事务与在受监督的微调数据集中具有非常匹配标签相关。这是真的吗?

它能教我如何正确使用 FFmpeg 吗?是否就像有人在看输入,查看您需要添加的标志,然后有一些人在弄清楚并匹配这些标志。您是否需要雇佣所有这些拥有各种领域专业知识的标注评分员?如果是这样的话,似乎让这些模型变得越来越聪明会变得更加困难。

John Schulman 约翰·舒尔曼

您不一定需要这样。您可以通过泛化获得大量的帮助。基础模型已经在大量的文档、代码和 shell 脚本等方面进行了训练。它已经看过所有的 FFmpeg man 页面,以及大量的 Bash 脚本等。

即使只是给基础模型一个良好的 few-shot 提示,您也可以让它回答这样的查询。仅仅训练一个有用性偏好模型,即使您不对其进行任何 STEM 培训,也会在一定程度上推广到 STEM 领域。因此,不仅您不需要关于如何使用 FFmpeg 的示例,甚至在编程领域中,也可能不需要任何编程知识就能获得一些合理的行为。

Dwarkesh Patel 德瓦克什·帕特尔

也许是最后一个问题。我们以不同的方式触及了这一点,现在让我们把它整合在一起。您说您正在训练更多的多模态数据。可以推断这些模型会理解屏幕的外观,并且能够以一种更加连贯的方式与其进行交互。此外,您将使用长期的强化学习,因此它们将能够作为系统中的代理并以一种更加综合的方式成为您工作流程的一部分。

您期望这将是什么样子?接下来会有哪些步骤?假设到年底或明年,您将拥有一个助理,可以与您在屏幕上协同工作。这看起来是一个合理的期望吗?接下来会发生什么?

John Schulman 约翰·舒尔曼

我肯定希望事情发展朝着那个方向发展。最好的形式因素尚不清楚。它可能是像您电脑上的 Clippy 一样帮助您,或者更像云端中的一位乐于助人的同事。我们将看到哪种形式因素效果最好。我期待人们尝试所有可能的形式。

我期待一个乐于助人的助手或同事的心智模型会变得更加真实。它将是您可以分享更多日常工作的东西。与其仅仅提出一次性查询,您可以拥有一个完整的项目,它知道迄今为止您在该项目上所做的一切。

它甚至可以主动提供建议。也许您可以告诉它记住询问我这件事是否有所进展。主动性是缺失的一点。我希望看到我们摆脱一次性查询、像搜索引擎一样使用该模型的模式,更倾向于与模型共同完成整个项目。它可以知道我所做的一切。它可以主动为我提供尝试的建议,或者在后台进行工作。

Dwarkesh Patel 德瓦克什·帕特尔

这个问题非常有趣。这是最后一个问题。当它取代您的工作时,大概需要多长时间?

John Schulman 约翰·舒尔曼

噢,它会取代我的工作吗?也许五年。

Dwarkesh Patel 德瓦克什·帕特尔

很快就会。有趣。John,这真的非常有趣。非常感谢你抽出时间。这似乎是 AI 过程中非常重要的一部分,但人们对此了解并不多。深入探讨并听取你的想法真的很有趣。

John Schulman 约翰·舒尔曼

感谢邀请我参加播客节目。谈论所有这些事情真的很有趣。