OpenAI创始成员揭秘：自动驾驶与未来人形机器人的发展前景

发表时间: 2024-09-23 10:09

近日，OpenAI的早期成员和著名AI研究者Andrej Karpathy在No Priors播客中现身，畅聊了他对AI现状与未来发展，以及自动驾驶、人形机器人等行业的预判。

访谈涵盖了广泛的主题，从自动驾驶技术的现状和未来，到AI研究的最新进展；从大语言模型的发展潜力，到AI在教育领域的革命性应用；从人机融合的可能性，到AI对人类认知和学习方式的深远影响。Karpathy凭借其在OpenAI、特斯拉等顶尖科技公司的丰富经验，输出了独特而深刻的见解。

Karpathy在访谈中强调，AI不应该是取代人类，而是应该成为赋能人类的工具。他深入探讨了AI研究的技术细节，包括Transformer架构的重要性、合成数据的潜力与挑战、小型高效模型的发展前景等。本期「AI大家说」精选了本次访谈中Karpathy的观点。

来源：No Priors

01 自动驾驶与人形机器人

Q：人形机器人的第一个落地场景是什么？

Karpathy：很多人可能会想着让机器人去洗衣服、做家务什么的，但我觉得那会很晚才实现。我不认为B2C是个好起点。

我认为最好的第一批客户就是公司自己。可以先在工厂里使用它，比如做一些物料搬运的工作。你可以自己先孵化它，然后第二步再去做B2B。你可以去那些有大型仓库的公司，帮他们处理物料、签合同、设置围栏，做所有这些事情。等你在多家公司验证过后，我觉得那时才能开始进入B2C应用领域。我相信未来我们会看到B2C的机器人出现，比如像宇树科技推出的产品。可能还会有一些人在这些平台上建立一个生态系统。总之，最初肯定还是会涉及大量的物料搬运，逐步向更具体的应用发展。

Q：你如何看待现在自动驾驶的能力发展路径？

Karpathy：我曾在自动驾驶领域花了大约五年的时间。我觉得自动驾驶其实和AGI在某种层面上是相似的，而且我觉得我们在自动驾驶方面已经触及到了一点AGI——现在一些自动驾驶已经可以做到带你在某个城市里随意地逛了。然而，它还没有实现全球化。

最近自动驾驶有个趋势，就是向端到端深度学习的转化，用神经网络逐步取代整个系统栈。像这样的端到端系统，在大约10年内，可能就是一个完整的神经网络了。视频流输入神经网络，最后直接输出控制指令。这种端到端驾驶，只是模仿人类的行为，用很少的监督数据去训练一个庞大的神经网络。对于几亿个参数来说，这种信号太少了。所以，这些中间层表征可以帮助开发各种特征和检测器，让端到端部分变得更容易。

Q：人形机器人有什么是可以转移到自动驾驶的吗？

Karpathy：其实，我觉得车在自动驾驶中基本上就是个机器人。很多人认为特斯拉只是一家汽车公司，但它其实是一家大规模的机器人公司。规模化本身也是一个完全不同的变量。他们不是在造单一的产品，而是在造可以制造产品的机器，这完全是两回事。从汽车到人形机器人的转变其实没那么难。早期版本的Optimus机器人甚至以为自己是辆车，因为它用的电脑和摄像头跟车完全一样。特别有趣的是，我们在机器人上运行的是汽车的算法，而它却在办公室里四处移动，试图识别可驾驶的空间，但实际上它面对的是步行空间。虽然有些细微的调整需要做，但基本上，它在开车的环境里运行，实际上只是在行走。

虽然目前会缺少数据，但其实在智能方面，有很多可以转移的东西。不仅是具体的神经网络，还包括整个方法论、团队，以及所有的协调和大家使用的方法。

Q：你认为相对于未来，现在的机器人技术里缺少了什么关键技术？

Karpathy：在人形机器人这种形态中，下半身的控制可能不太适合通过示范来进行模仿学习。因为下半身涉及很多像倒立摆控制这样复杂的力学问题。而对于上半身，我觉得可能需要更多的远程操作、数据收集和端到端的处理。

02 AI的现在与未来

Q：你怎么看待数据壁垒以及规模进一步发展的成本问题？

Karpathy：首先我不认为神经网络架构在从根本上限制我们了。以前Transformer是一种瓶颈，但现在它已经不再是瓶颈了。现在我们更多地在讨论的是：使用什么是损失函数？数据集在哪里？这些问题几乎成为了瓶颈。

这不再是一个基于你想要它变成什么而重新配置的通用组织。这就是为什么许多研究已经转移到了这个领域。很多公司和其他应用这种技术的企业不再怎么考虑Transformer的架构创新了——它在过去五年里没有太多革命性的变化，大家现在已经把它视为理所当然，直接使用并进行训练。现在，大部分的创新都集中在数据集和功能细节的优化上。这是目前行业内活跃的讨论和改进领域。

现在，很多工作都在语言模型（LMS）上进行。而互联网数据并不是我们理想中的Transformer训练数据。我们真正想要的，是更接近人类大脑中的“内心独白”那种数据——当你在解决问题时，你的大脑会产生一系列思维轨迹。如果我们能得到上亿条这样的数据，类似于AGI的想法，那我们就能取得很大进展。但目前我们还没有达到这个水平。

所以，现在很多工作都围绕着互联网数据展开。这些数据虽然不是完美的，但已经非常接近，因为互联网上有足够的推理痕迹和丰富的知识，而Transformer的作用就是让这些数据得以有效利用。

我认为，接下来很多工作将聚焦于如何将数据集重构为更类似于“内心独白”的格式。合成数据的生成在这方面能提供很大帮助。

有趣的是，当前的模型在很大程度上帮助我们构建下一代模型。它就像在攀登楼梯，一步步向前推进。

Q：你认为合成数据有多大用处，或者说能带我们走多远？

Karpathy：我认为合成数据的确是我们进步的关键之一，但一个常见的问题是，模型在生成内容时可能出现“坍塌”现象，输出变得单一。

比如，让ChatGPT讲笑话时，它可能只会重复三四个笑话，缺乏足够的变化。这种“熵”降低现象表现在单个结果上并不明显，但从整体来看，模型的输出会失去多样性和丰富性。

如果你没有保持这种数据的随机性和多样性，你就会得到一个贫瘠的数据集，失去了原有的活力。这种问题在表面上不易察觉，但实际上它会极大影响模型的性能。因此，在生成合成数据时，你必须非常小心，确保数据集中保留足够的熵。

Q：你认为我们从这项研究中对人类认知了解了什么？

Karpathy：总体而言，这两者还是有很大差异的，但确实有一些相似之处。例如，在很多方面Transformer比人脑更高效。它们之所以还不如人脑，主要是因为数据问题——这算是一个大概的解释。

比如，Transformer在记忆序列方面比人类强多了。你给它一个序列，它可以在前后进行操作，记住并完成整个序列。而人类，只看一遍是记不住的。

所以在某些方面，像Transformer这样的模型，尤其是在梯度优化上，可能比大脑还要有效。尽管它们还不完美，但在很多认知任务上，我认为它们有很大的潜力。

我觉得人类大脑有很多限制。我们的工作记忆非常小，而Transformers的工作记忆要大得多，并且这种差距会持续扩大。它们是更高效的学习者。大脑在各种限制下工作，比如不清楚大脑是否使用反向传播，也不知道那会如何运行。大脑是一个非常随机、动态的系统，受环境和其他因素的制约。所以，我认为我们现在的技术，潜力上比大脑更强，只是还没完全到达那个水平。

Q：未来随着时间推移，人类会怎么样和AI系统结合？

Karpathy：我们其实已经在某种程度上融合了。问题在于输入输出的瓶颈。但大多数情况下，如果你拥有这些模型中的任何一个，你已经在使用它们了。或许未来，通过某种形式的融合可以解决未来与AI或其他系统的潜在冲突。我觉得这有点像大脑的外层皮质。我们是在新皮层上继续构建。只是这次，它是在云端，而不是在我们头脑里，但本质上，它是大脑的下一层。

Q：你认为未来的模型会是什么样的？

Karpathy：我觉得模型可以小到让你意想不到。现在的模型浪费了很多容量在记住一些不重要的东西上，这是因为我们用的数据集没有整理得很好。我认为这种情况会改进的。我们需要做的是找到认知的核心部分，我相信这个核心可以非常小。它只需要能思考，如果需要查找信息，它知道怎么用不同的工具来获取。

我觉得10亿参数就够了。我们有可能做到这一点。模型可以做得非常小。这是因为蒸馏技术很有效。蒸馏就是用一个大模型或者大量的计算资源去训练一个小模型，你可以把很多功能压缩到一个小模型里。

也许这个未来不是一个单一的模型，可能是并行的一组模型。你能从并行处理的优势中获益。我觉得公司在某种程度上也应该强调工作中的并行化。不过，公司存在的层级结构是为了有效地组织信息。

所以，我认为未来大模型的工作模式会像一个「大模型公司」。你会有各种不同能力、专注于独特领域的模型。这将类似于公司中的不同角色，比如程序员和项目经理，他们并行工作并进行协同计算。模型们会形成一个生态系统，里面有专门的角色和生态位。问题会根据难度自动上升到不同部分。

因此，也许CEO就像一个非常聪明的云模型，甚至可能是开源模型或其他类型的模型。这种方式可能会很有趣。

Q：你离开了OpenAI，开始从事教育工作。为什么会做出这样的决定呢？

Karpathy：我觉得现在AI领域有很多活动，很多都是想取代或替代人类的，这让我感觉有点像把人排除在外了。

我更关心的是如何通过AI协助人类。我不希望未来人们只是被自动化取代，我希望人们能够变得更强，更出色，比现在更好。如果一个人有一个完美的全科导师，他们能走多远呢？但如果人们能有一个完美的学习安排，他们可以走得非常远。我们看到一些有钱人大概率有私人导师，他们的确取得了很大的成就。所以我希望通过AI，达到接近这种效果。

我觉得学习就像去健身房一样，是对大脑的锻炼。去健身房本身是很有趣的，虽然需要努力，但也有很大的回报。你在各方面都能感觉更好。我认为教育也应该有这种感觉。所以当我说教育不应该只是有趣的时候，我指的是它应该有挑战性，也应该带来一种特别的乐趣。在一个后AGI的世界里，我希望人们能像去健身房一样经常去「学习」，不仅是身体上的锻炼，还有精神上的。这是我们所向往的目标，高教育水平就是这种理想的体现。

OpenAI创始成员揭秘：自动驾驶与未来人形机器人的发展前景

热门阅读

推荐阅读