揭秘ChatGPT:超越聊天机器人的真实力量

发表时间: 2024-04-11 23:02

OpenAI 发布 ChatGPT 已有几个月了。 这个基于大语言模型的聊天机器人不仅让很多人工智能研究人员大开眼界,也让大众看到了人工智能的力量。 简而言之,ChatGPT 是一个响应人类命令的聊天机器人,可以完成从写文章、作诗到解释和调试代码等任务。 该聊天机器人表现出了令人印象深刻的推理能力,显着优于以前的语言模型。

在这篇文章中,我将从个人角度谈谈 ChatGPT 对三类人的影响:AI 研究人员、技术开发人员和普通大众。 在文章中,我将推测ChatGPT等技术的影响,并简要谈谈我认为可能发生的一些场景。 本文更多的是个人观点,而不是基于事实的报告,因此请对这些观点持保留态度。 那么,让我们开始吧……

面向 AI 研究人员的 ChatGPT

对于我作为一名 AI 研究人员来说,我从 ChatGPT 学到的最重要的教训是,管理人类反馈对于提高大型语言模型 (LLM) 的性能非常重要。 ChatGPT 改变了我,我猜也改变了很多研究人员对大型语言模型的 AI 对齐问题的看法。 让我详细解释一下。

图:LLM的强化学习和人类反馈(RLHF)

在ChatGPT出现之前,我理所当然地认为我们在LLM方面面临着两个不同的问题。 1) 提高法学硕士在某些基于语言的任务(例如摘要、问答、多步推理)中的表现,同时 2) 避免有害/破坏性/有偏见的文本生成。 我认为这两个目标相关但独立,并将第二个问题称为对齐问题。 我从 ChatGPT 了解到,对齐和任务性能实际上是同一个问题。 将法学硕士的输出与人类意图保持一致,既可以减少有害内容,又可以提高任务绩效。

为了更容易理解,这里提供一些背景信息: 我们可以将现代LLM培训分为两个步骤。

就 ChatGPT 而言,OpenAI 可能使用了许多不同的技术,共同生成最终模型。 此外,OpenAI 似乎能够快速响应在线关于模型出错(例如生成有害文本)的投诉,有时甚至在几天之内,因此他们还必须有一种方法来修改/过滤模型生成,而无需重新训练/微调它模型。

ChatGPT 标志着强化学习(RL)的悄然回归。 简而言之,带有人类反馈的强化学习(RHLF)首先训练一个奖励模型来预测人类会给某个 LLM 生成的内容打多少分,然后使用这个奖励模型通过 RL 来改进 LLM。

我不会在这里过多讨论 RL,但 OpenAI 历来以其 RL 功能而闻名,通过编写 OpenAI 健身房启动 RL 研究,训练 RL 代理玩 DoTA,并因在数百万年的模拟数据上使用 RL 而闻名。 以训练机器人玩魔方而闻名。 在OpenAI解散机器人团队后,强化学习似乎逐渐被OpenAI遗忘,因为它在生成模型方面的成就主要来自自监督学习。 ChatGPT 的成功依赖于 RLHF,这让人们重新关注 RL 作为改进 LLM 的实用方法。

图:AI专家预测ChatGPT的运营成本

ChatGPT的到来也证明学术界开发大规模AI能力将变得越来越困难。 虽然这个问题在整个深度学习时代都可能出现,但 ChatGPT 使其变得更加根深蒂固。 小型实验室不仅无法训练基本的 GPT-3 模型(GPT-3 和随后的 OpenAI 在微软将 Azure 的全部力量投入其中,构建专用服务器场和超级计算机之后才真正开始发展,这并非巧合) ,而 ChatGPT 的数据收集和 RL 微调管道可能会给学术实验室带来过多的系统/工程负担。

向公众免费提供 ChatGPT 使 OpenAI 能够收集更有价值的培训数据,这对其未来 LLM 的改进至关重要。 这样看来,公开托管ChatGPT本质上是OpenAI的大规模数据收集工作,这不是一个小组织能够承受的。

与 HuggingFace 和 Stability 等公司进行开源和大规模学术合作可能是目前学术界的发展方向,但这些组织的行动总是比预算更大的小型团队慢。 我推测,在最先进的语言模型方面,开源通常落后于这些公司几个月到一年。

我认为学术界能够收回 10% 的唯一方法是有一个专门用于学术人工智能研究的国家计算云。 这无疑将花费数十亿美元,并且需要专门的管理和工程人员。 这并非不可能——它类似于詹姆斯·韦伯太空望远镜和大型强子对撞机。 在美国,一些人已经呼吁建立国家人工智能云来进行 LLM 推理,但训练和微调 LLM 和其他底层模型的能力同样重要。 鉴于人工智能的国家战略重要性,我们实际上可能会在不久的将来看到这个方向的发展。

与此同时,人工智能研究人员并不总是需要训练大型模型才能产生重大影响。 我的看法是,较小的学术实验室不应该竞争下一个最大和最好的法学硕士,而是可以专注于改善现有法学硕士的使用,分析其优势和劣势,并利用以非常低的成本托管这些极少数的公司的优势。 强大的法学硕士事实。 例如,可以利用 OpenAI 和其他公司的现有 LLM API 来进行 LLM 相关研究,而无需学术实验室从头开始训练这些模型。 低成本且开放的方式获得强大的法学硕士学位,使整个已发表的研究能够发现法学硕士学位的新功能和应用。

ChatGPT 面向技术从业者

对于从事技术工作和开发产品的人来说,ChatGPT 和类似的代码编写模型表现出显着的一阶和二阶效应。 对于程序员来说,使用基于 AI 的代码补全和 ChatGPT 式的问答来学习编码和理解现有代码库将成为软件工程工作中不可或缺的一部分。 我推测,明年,许多大学将提供计算机科学课程,教授在软件工程等应用中利用人工智能的最佳实践。

ChatGPT 和更强大的人工智能代码辅助将迫使软件工程师从根本上重新制定他们操作的抽象级别。 大多数软件工程师不需要推理低级机器代码,因为我们有非常强大的编译器,可以将人类可读的代码(如 C++)转换为机器可读的代码。 软件工程师可以学习这些编译器的内部工作原理以及如何编写最能利用这些编译器的特性和优点的代码,但他们不需要自己编写机器代码,也不需要编写自己的编译器。

人工智能编码可能会成为新的“编译器”,将高级人类指令转换为低级代码,但处于更高的抽象级别。 虽然未来的软件工程师可能会编写高级文档、需求和伪代码,但他们会要求人工智能编码人员编写人们今天编写的中级代码。 这样一来,我不认为软件工程师会被AI取代,而是推高了价值链。 未来,熟练掌握这项技能的软件工程师可能需要了解不同编码人工智能的优点和缺点,以及如何针对特定应用领域最好地构建和修改人工智能。

以上是一阶效应。 ChatGPT 直接影响技术从业者,尤其是软件工程师的工作方式。 对技术产品所能提供的功能的二阶影响可能更为深远。 ChatGPT 和类似的法学硕士通过以下方式实现新产品:1)解锁全新功能;2)降低现有功能的成本,使它们突然具有经济意义。

图:机器人用自然语言执行新任务

上述第一点的一个例子是,我们现在只需让人工智能编码器将语言指令翻译成调用该软件 API 的代码,就可以向任何软件添加自然语言用户界面。 以值得信赖和普遍化的方式做到这一点需要付出大量的努力,就像推出真正的产品一样,细节决定成败。 尽管如此,这是一项全新的功能,我怀疑自然语言软件 UI 将在所有软件平台上爆炸式增长,特别是那些传统用户界面感觉笨重和不方便的平台(例如移动设备、语音助手、VR/AR)。 老实说,很难想象在法学硕士时代开发一个新的应用程序而不包含基于语言的用户界面。 进入门槛很低(只需调用公共LLM API),如果您不这样做,您的竞争对手就会提供更好的用户体验。

降低现有功能的成本可能听起来不如解锁新功能那么有吸引力,但它同样重要。 LLM 可能有许多有前景的应用,但针对这些下游任务微调 LLM 的成本可能太高,不值得投资。 借助 ChatGPT 和改进的指令跟踪,开发人员可能不再需要收集大型数据集进行微调,而只需依赖零样本性能(零样本学习性能)。 预计在许多处理文本输入的现有应用程序中将有大量基于文本的分类、摘要和内联预测功能的“小规模”LLM 部署。 这些对用户体验的边际改进以前可能投资回报率很低,但现在突然值得了。

低成本还意味着应用法学硕士和其他基础模型的企业有许多唾手可得的成果,通过良好的 UI/UX、与现有软件产品的集成以及有效的上市和货币化策略为消费者创造价值。 Lensa 就是一个满足所有这些条件的例子。 LLM 部署的这些更实用的方面往往胜过底层模型的纯粹性能,成功的初创公司总是可以将旧的 LLM 替换为新的和改进的版本。 这也意味着那些申请法学硕士的人不应该将他们的技术堆栈与特定法学硕士的功能联系得太紧密。 LLM 的快速改进周期,加上可公开访问的 API,以及关键的商业差异化因素不是模型本身,可能意味着 LLM 将变得商品化。

将有两种类型的科技公司向前发展——那些有能力训练和运行自己的基础模型的公司,以及那些不能而且需要向前者支付基础模型税的公司。 这听起来很戏剧性,但这与我们今天的情况并没有什么不同,科技公司要么托管自己的服务器,要么向 AWS/Azure/GCP 纳税。 AI云业务将是未来云平台的关键战场,将为竞争对手提供超越现有企业的机会。 例如,凭借微软的经验以及与OpenAI的结合,Azure很可能凭借其AI云产品超越其他公司(微软已经在Azure上发布了OpenAI的模型,远远领先于竞争对手亚马逊和谷歌)。

图:GPU性能增长速度远快于CPU性能

最后,从更具推测性的角度来看,基于深度学习的底层模型可能会让我们在相当长的一段时间内避免摩尔定律放缓带来的负面后果。 随着这些模型变得越来越强大,它们将接管越来越多由传统软件执行的任务,这意味着越来越多的软件将通过简单地优化神经网络的性能来进行优化。 神经网络运行在GPU和专用芯片上,其性能提升并未出现传统CPU提升明显放缓的情况,这大致可以体现在摩尔定律的放缓上。 我们真的很幸运,拥有一个单一的神经网络架构,即 Transformer(由 ChatGPT 和其他基本模型使用),它可以代表通用计算,并经过训练可以很好地执行许多不同的任务。 我们还没有接近优化 Transformer 性能的终点,因此我预计随着 LLM 变得更强大并取代更复杂的遗留软件堆栈,计算机会变得更快。

ChatGPT 向公众开放

视频

ChatGPT是第一个让许多公众可以直接交互的人工智能技术。 当然,在ChatGPT之前,就有了Siri和Alexa,深度学习应用已经在很多商业应用中变得无处不在。 不同之处在于,之前部署的人工智能技术通常在后台运行,通过传统软件层和有限的用户界面进行“过滤”。 公众通过ChatGPT对AI有更直接的体验。 用户可以直接输入LLM并直接看到其输出(OpenAI确实会过滤有害内容并用自己的提示修改用户输入,因此它不会直接与底层模型交互,但足够接近)。 ChatGPT 也比以前的聊天机器人更强大。 再加上该服务目前免费,这些因素促使 ChatGPT 进入主流世界的讨论。

与之前相比,这种与AI的近距离接触,让公众更真实地体验到了AI的新颖性和炒作性。 我可以想象,突然间,对于那些不熟悉法学硕士如何运作的人来说,聊天机器人可能有意识的想法听起来并不是太牵强。 这也反映出一个问题,当谈到人工智能问题时,缺乏科学的沟通——我认为人工智能界正在向公众教育和普及人工智能如何工作、它能做什么和不能做什么以及如何负责任地使用它。 AI技术很差。 哎呀,我们甚至不确定技术从业者是否了解LLM的基础知识,更不用说普通公众了,他们是受这项技术影响的最终用户。 在接下来的几年里,人工智能教育和交流的持续失败可能会导致灾难性的后果,因为像 ChatGPT 这样的模型会在没有适当预防措施的情况下进入关键任务应用程序。

或者,从某种意义上说,教育人们了解一项新技术的最佳方式可能是让公众公开试验该技术及其应用,体验它的失败,并反复辩论和提炼一些流行的想法。 这波基础模型的出现,尤其是ChatGPT开创的免费使用先例,可以让公众通过亲身体验更好地理解人工智能,进而引发更明智的理解和讨论。

发布仅几个月后,DALL-E 2 成为第一个真正出色的文本到图像生成模型,我们已经看到公司和社区试图适应这一新现实的一系列不同的政策响应,从AI艺术完全禁止销售包含AI艺术的图像。 就 ChatGPT 而言,一些学术会议(以及一些学校)已禁止其使用,而另一些则将其列为共同作者。 围绕生成人工智能还有很多正在进行的诉讼。 目前尚不清楚使用这些模型的合法和道德方式是什么,但很明显,这些围绕人工智能使用政策的小规模实验对于公众弄清楚这些事情确实很重要。 我个人认为这是一个很好的方向,因为我相信公共政策应该由公众讨论决定,而不是由托管这些模型的任何一家特定科技公司的不明确委员会决定。

图:新技术的采用需要时间,尽管随着时间的推移采用速度会越来越快

关于 ChatGPT 和类似基础模型的应用的最后一个想法 - 技术部署总是比技术创新需要更长的时间(尽管采用正在加速),尽管人们可以在一个周末构建一个令人印象深刻的 LLM 演示,但它仍然需要大量的工作和反复试验来构建可靠、可扩展的产品,为消费者提供价值。 在科技界,我们可能会在 2023 年看到生成式人工智能应用程序的海啸,但我预计这些应用程序在公众中的传播速度会慢得多。 有很多因素会减缓大规模生成式人工智能的采用——现有系统和产品的惯性、人工智能取代人类认知的文化障碍、运行人工智能的成本在许多应用中可能没有意义、 LLM 输出性能和可靠性,并扩展 LLM 计算基础设施以实时服务数十亿个查询。 这些挑战都不会在一夜之间甚至几个月内得到克服。 但它们最终会被克服,五年后的世界将会变得非常不同。

未来该何去何从?

如果说我们在过去 10 年的深度学习中学到了什么,那就是对人工智能(包括其开发和部署)做出准确的预测确实很困难。 然而,我可以自信地说,ChatGPT 只是未来的一个小预览。 关于基础模型的未来,我看到两个方向有很大的进展,我认为今年或明年会有突破:1)真正多模态的ChatGPT级别的基础模型(如文本、音频、图像、3D) 、动作、视频、文档),以及 2)为在环境中采取行动而设计的基本模型。

图:较新的模型可以直接理解图像中呈现的文本(右),而不是训练单独的模型来理解视觉和文本(左)。

对于1),想象一个类似于ChatGPT的界面,但你不仅可以上传文本,还可以上传音频、图像、视频、3D模型和其他结构化文件,并让它“理解”、分析、处理和生成这些内容。 这样的技术如今已经存在,并且将所有这些模式集成到一个模型中似乎很简单。

关于 2),在不久的将来拥有一个能够通过键盘和鼠标与计算机进行可靠交互以执行人类今天所做的许多日常任务的基本模型似乎是合理的。 有一些证据表明这是可能的,从针对机器人过程自动化的初创公司到试图训练人工智能代理来完成《我的世界》中开放式目标的研究人员。 为物理机器人而不是虚拟代理开发这种基本的面向行动的模型将会更加困难,但进展已经在进行中。

图:将自然语言指令转换为与网络浏览器交互的操作的语言模型。

关于商业化,一方面,科技巨头有能力利用其庞大的计算资源来训练真正强大的模型。 但另一方面,公共/开源模型也将变得非常流行/易于使用,所以我不确定拥有自己的模型对于许多应用程序来说是一个很大的优势。 如前所述,基本模型可能会商品化。 因此,对于已经拥有设备/操作系统的大型科技公司来说,开发一个适合LLM的平台会更好,该平台允许其他人使用基本模型并在其之上构建新的应用程序,而不是直接与之竞争构建这些应用程序(想象一下专门为多模式或面向移动的基本模型量身定制的移动/AR/VR/桌面/Web 操作系统),这样做才有意义。

最后,展望未来,我们可能会在未来 5 年内告别“来自互联网的免费数据”制度,该制度真正推动了基础模型的最新进展。 虽然特定领域的微调/校准始终需要自定义数据(通过传统的监督学习或 RLHF),但使用大规模“免费”数据预训练强大的模型无疑导致了 GPT 和类似模型的成功。 看看社区如何超越仅仅抓取现有的数值数据来提高底层模型的性能将会很有趣。 可以肯定的是,我们仍然会通过更好的训练和对齐技术来改进模型,但大规模自监督学习的下一个前沿是什么? 下一个 10 万亿或 100 万亿数据点将来自哪里? 我真的很想知道。

本文来自微信公众号“巴比特资讯”(ID:bitcoin8btc),作者:Jacky Liang,编译:巴比特资讯 Wendy,36氪经授权发布。