揭秘马斯克的人形机器人Optimus：背后的科技力量

发表时间: 2024-11-04 16:07

整理丨刘倩

特斯拉人形机器人 Optimus 热度居高不下，我们邀请了清华大学交叉信息研究院助理教授、同时是清华叉院具身智能实验室负责人许华哲来与我们分享他的观察和实践。去年开始，许华哲也参与创立了一家具身通用机器人公司—星海图。

许华哲本科毕业于清华大学电子工程系，在伯克利 Al Research Lab（BAIR）获得博士学位，后在斯坦福做博士后，2022年回国加入清华大学交叉信息学院。博一做过自动驾驶后，他在博二开始关注机器人领域，伯克利也是较早尝试把强化学习和机器人结合的重镇之一。

通用智能机器人是一个交叉学科，也是人类最大的科学幻想之一。AI 知名学者 Marvin Minskey（马文•明斯基）曾预测，3-8 年后，我们就会看到通用智能体，不过他说这话时是 1970 年。新一轮 AI 热潮为何会不同？最前线的人提供了他们看到的可能。以下是许华哲的分享。

怎么理解遥操？

We Robot 是一场很马斯克风格的发布会，现在机器人最主要的应用还是表演，它并没有给我们带来太多的能力上的突破。丝滑遥操作的实用价值主要是远程劳动力转移，同时能帮助获得更多数据使系统进化。人类完全可以在另外一个国家、另外一个州、另外一个省，去控制一个远程的机器人做事情。

判断机器人好不好的两个小 trick：一是机器人走路时，周围人越少越好；再者就是机器人操作时，周围人离机器人越近越好。

摇操其实是一个大的概念，这个概念下面有无数种方式可以控制机器人。遥操目前有三种常见方式：从视频映射、人带着 VR 设备遥操、用与机器人同构的专用遥操设备遥操。

第一种成本最低，不用实时去控制，只需要算法，但是由于人和机器人的构型不同成本低精度就会相对较差；对于动作捕捉 VR 是更准确的，但它仍然有问题。VR 是直接控机器人的末端，机械臂为 6 轴或者 7 轴，末端如何动需要解算，首先这个计算过程会耗时。其次如果手拿 VR，手柄离得很远，机器人就卡住不动了；同构不同于映射，不是把末端映射到机器人上，而是把每一个关节上面的自由度都映射过去，这样数据采集效率要高很多。斯坦福 Aloha 就使用了第三种。

摇操作一方面是运力转移，在人工智能或者具身智能还没有完全发展到位的时候，起到了一定的价值。另一方面是获取数据帮系统进化，数据可以放到具身智能的模型里面，模型学习后就不再需要摇操作了。从遥操到机器人自己动，需要更多的数据、更好的模型。机器人作为一个新兴的行业，积累数据还需要很长时间、模型本身也有待探索。就像大模型的发展，也是经过探索才逐渐找到GPT 是正确的方法。具身智能也是需要这样的一个过程，等逐渐找到具身智能里面的 “GPT”，将会达到很好的效果。

特斯拉发布会拉高大众对机器人的期待，整体是好事。马斯克把 “饼” 画得足够大，对于整个社会来说，相当于让更多的资源、关注投到这个领域，获得最好的人、最多的钱、最多的关注、最多的曝光，行业会发展得更快。比如预期 20 年能达到的事情，现在变成 10 年就能解决，这是一种营销。

通用具身机器人照进现实，变化并不始于 Optimus

强化学习、模仿学习和多模态大模型

伯克利 Al Research 较早关注强化学习，伯克利 AI research 是伯克利的几个比较核心的教授们成立的类似于中心的虚体机构。许华哲博二进入机器人领域，直到博四强化学习算法相对成熟些后，开始往真机上面部署、尝试，跟着 Meta（Facebook）Roberto 做一些机器人控制和触觉相关的事情。许华哲所在的课题组 travel，主要做视觉、决策，当时没把这个叫做强化学习或机器人，它起的名字叫 actionable AI——就是可动的 actionable。伯克利鼓励一起合作，不同老师和博士间自由组合，很适合机器人交叉领域。
由于美国高校的人才轮动机制，斯坦福、伯克利、MIT 机器人没有严格意义上的强弱。有一个习惯叫做 “学术不近亲繁殖”，比如在伯克利毕业的人想在伯克利找教职，大概率不会成功。只有较为顶尖的高校之间才会有流转。
2019 年 ETH（苏黎世联邦理工） “让机器狗在仿真环境里学会爬山” 的论文很大程度上改变了外界对机器人的看法，使大家明白强化学习这个东西真的能部署到机器人上，这是强化学习在机器人中的应用。其实那个时候很多人比特斯拉更早在学术圈做机器人，比如说伯克利，它目前的强化学习已经有一些眉目，下一步就该把它部署到机器人上了，这件事情其实是早于特斯拉发布会。
许华哲自己的项目——机器狗学会在软垫上走，通过改进一个强化学习算法，让机器人不是在仿真里学，是在真实环境里学。这是一个非常重要的方向，但离落地还比较远，首先是的数据和一些安全性的问题，其次是把东西碰到地上了该怎么复位等等，这些问题很难解决。
算法和模型架构是两个概念，同一个算法可用不同架构的神经网络实现；强化学习最典型的两个算法范式，一个叫基于值的学习（Q学习），一个叫基于策略的学习，在这两个算法框架下会有更多细节的算法改进。神经网络大家一般叫它 Architecture（架构或者结构），算法是基于这个结构来做。一个算法可能对任意结构都适用，但要找到一个最优的结构，它们两个共同决定了一个方法好不好。
关于用在机器人上的强化学习，小模型普遍用简单的卷积神经网络或者多层感知机，大模型一般是 Transformer，最近也有用 diffusion 加 Transformer，也能强化学习。小模型更专注、大模型更通用——可以把所有的事情都融到一个模型里面。目前来说大多数部署的应用的都是小模型，但大模型给了我们一个希望，就像 GPT 4 一样，将所有东西都融到一个大模型里面。目前实践中是用小模型比较多，具身大模型是大家都在探索的一个方向，接下来谁能做出非常有效果的“具身大模型”，会是一个进展。
目前具身智能公司，自己做强化学习、模仿学习多，多模态大模型一般使用外部的，如 GPT 等。

世界模型

世界模型在自动驾驶领域热度也非常高，世界模型目前是个笼统概念——根据目前状态能推断未来状态的都可以是世界模型。许华哲第一次接触这个名词是在 2018 年，世界模型有很多的概念或者定义，比如投篮里面的物理定律是世界模型、知道食物搁置过久会变质也是世界模型。根据当前的状态以及将要做的事情、动作，推断出未来会发生什么，这都可以算是一种世界模型，所以世界模型有非常多的种类，即使在人的大脑里面也是一个复杂的系统。

因为 Sora 里面没有动作，所以大家普遍认为 Sora 并不是一个世界模型，而是一个视频预测模型，不同在于它不可控，无法控制视频中人的行动轨迹。如果可以，那它就是一个世界模型了，比如 YX 的世界模型，它也是视频预测，只不过它的输入是当前的帧和当前的动作，控制机器人的行动。世界模型是非常重要的，每时每刻都有一个微小的世界模型在运转，例如将一瓶水推下来，我们就知道它大概加速度，如果反应足够快还可以用手把它接起来，这个叫直觉物理，大家对这个世界其实不停地在往前去模拟半秒、一秒的时间，这是在短时间要做的物理控制；如果是长时间，比如经营一家公司，如果做了这些事公司会怎么样，不做这些事公司又会怎么样？这都是某种意义上的世界模型，所以世界模型在决策中是非常重要的。

让机械臂学会自己揉面团、包饺子，就比较直观的让大家明白世界模型是怎么预测面团动的。当时用到的“世界模型”就是一个神经网络，不过是一个很局限的版本，可以理解成它是一个曲线的。关于橡皮泥或者饺子的状态的一个世界模型，它不是通用世界模型，可能更窄一点的，我们可以叫它动力学模型。但动力学模型也是世界模型的一部分，包含了所有的动力学、逻辑、数学上面的，都算是世界模型。

实现通用机器人，世界模型一定是组成部分，但大家对世界模型各有各的定义，有人是用视频预测；有的人可能是要在三维世界去做世界模型；还有人认为世界模型应该是在一个隐空间去做，没必要去花那么大的算力去预测它每个像素，包括水倒的时候水到底怎么流的，这些都不重要，世界模型势必要做一些抽象，抽象到什么层次都是未知的。

乐坤是最后一种想法，首先他非常支持世界模型，但认为强化学习不怎么靠谱。他觉得世界模型是一切，因为强化学习本质上是一种无模型的方法，就相当于人做的事情都是基于反应的。他认为只有世界模型才能真正的达到通用的自动机器。

触觉（感知里被忽略的一个部分）

触觉是个被忽略的模态，但是对人来说触觉是不可或缺的。人最大的器官是皮肤，我们每时每刻都能感觉到这个世界在跟我们接触。研究者们有去研究过一些病例，在这些病例里面有一些人是触觉缺失的，通过研究发现触觉缺失的患者很难抓东西。后来又找了一个非常资深的患者，发现他不用触觉也可以把东西拿起来的，很像机器人，凭纯视觉，只要控制得足够精细仍然可以做这件事。人有非常好的天然优势，我们有五感但目前机器人只有一感，做触觉最主要的一个动机，就是让机器人也有摸这个世界的能力，从而使得它更高效地去做物体的操作。

触觉和力控传感的区别

触觉有两种，一种是每个肌肉、每个手指的关节都在感受到一个力，这是一种触觉，像是刚刚说的传感力。另一个就是摸到的东西的纹理和指尖接触到皮肤的力。我们之前看到的一些机械臂，它可以剥生鸡蛋、给葡萄皮穿针等等，这个是靠之前的力控就能做到吗？还是用了一些触觉传感器才能做到这么精细？还有手术机械也是非常精细的，这个更多是展示它的精确性，而不是去做触觉。

它其实最主要有三种用处。第一个叫操作，比如要去拿一个东西、要去转笔、要去剥鸡蛋之类的；第二个叫探索，比如去试试东西的冷热程度，放上会不会疼；第三种叫反馈，比如别人抱抱你，你就知道这个人很友好。这是触觉最主要三个用处，尤其在人形机器人上是有用的，因为人能做这三件事。

本体

硬件上的话，机器人本体形态目前五花八门。比如银河通用做的仿人型的机器人，它的腿并不是双腿的形式，其它一些公司反而觉得腿很重要，这是场景和任务的选择。关于灵巧手在清华有各种尝试，但并不适合现在就放在公司里做，要做好灵巧手，难度不亚于做好一个完整人形机器人，目前星海图 “力出一孔” 要做好的事是移动操作的本体、遥操作和智能。

从机器人的现在到未来

明斯基曾经说 3-8 年后通用智能体就会出现，这是明斯基 1970年的乐观预测，当一个新技术到来的时候，会有一群人高估他，无论是大佬还是普通人。同样的，在 2022 年 GPT 刚到来的时候，有一群人跳出来说 “这不就是 AGI 吗？AGI 在 2025 年的时候它就会来了”。但现在应该没有人再认为它是 AGI 了，因为我们肉眼可见的它有很多问题有待解决。

清华姚班本科生曾做过关于 AGI 的预期小调查：你觉得未来是两年、五年、十年、二十年，还是五十年或者更远，AGI 会到来？从结果中能明显感觉到今年大家的预期比去年低了、整体往悲观走，如果长时间没有新的东西，预期就会越来越低，像一个指数衰减一样，直到下一个东西爆发。

从现在到未来的瓶颈，第一个变数就是数据。目前行业里还没有清晰的数据采集成本，因为机器人跟大模型最主要的区别是它没有数据。大模型可以用互联网上的所有数据，我们每天在网上发表的东西、做的对话，都变成了它的训练数据，但机器人因为它没有铺开，所以它没有那样海量的数据。

星海图自己获得数据的方式有三种，第一是量产，现阶段更多是跟高校实验室的研究机构合作，数据共享。因为他们都是科研的用户，不在乎数据共享，大家希望能把这个事情做起来，只有企业之间才不会共享数据。第二个有没有好的模型可以支持这样的数据，假设有了这些数据，那到底存不存在一个模型可以像 GPT 一样把这些数据都消化，然后成为一个非常强的通用的这个具身智能模型，这件事其实也是未知的。第三种就是现在大家常说的 VRA 这种端到端模型，它可能是语言和图像一起输入，然后直接触动。

许华哲相信类似 VLA 的端到端模型是未来趋势，但不一定最适合现在来落地。

现在星海图的具身智能就软件分了两部分，一个就是具身的模型，一个是智能空间引擎，空间智能空间智能引擎。空间智能其实是“感知+世界模型” 的结合，当我们眼睛看到这个世界的时候，我们某种意义上是读到了这个世界的 3D 信息，而不是 2D 的。当我知道这些三维信息的时候，再加上世界模型，它整体构建了一个空间智能的体系。这个体系可以创建成一个模拟器，变成机器人的内脑在里面去做，然后另一个在部署的时候可以作为机器人的输入，去帮助机器人做更好的决策。目前大模型范式有缺陷。即使在今天也仍然是一种非常低效的方式，但可以一边先用，一边改进。

机器人真的铺开以后，普通人生活会有非常大的变化，现在纯体力的任务都可以被机器人取代。如果机器人真的部署了，社会资源会变得更多，大家会得到一些免费的钱。大家就会想 “那我不如就躺一躺，用这个钱去吃吃喝喝，然后等到下一波免费发钱” ，这将会使我们丧失很多权利，这个权利是不经意之间丧失的。机器人在帮我们做很多事情，以至于我们已经没有资格去决策生活中很多的东西了。要警惕人类不经意间丧失权利，你有可能失去“在健康日吃炸鸡的权利”。

尤瓦尔·赫拉利的新书《智人之上》里面设想了很多场景，以后每个人的行为都可以算分，比如说今天给老人让座加个分，聚会上扰民减个分等等。这种数据都可以被收集和分析，来判断你这个人对社会的影响，甚至潜在的这个犯罪的倾向等。一个本来应该在小范围里的行为，可能就会影响你之后找工作等很多事情。

在哲学上大家也在讨论这个问题：一致性。机器人会实现我们设定的目标，但可能以我们想不到的方式，使我们付出想不到的代价，任何一件看起来很好的事情都会带来社会的这个结构变化。

揭秘马斯克的人形机器人Optimus：背后的科技力量

怎么理解遥操？

通用具身机器人照进现实，变化并不始于 Optimus

从机器人的现在到未来

热门阅读

推荐阅读