王兴兴等专家共探具身前沿技术，未来趋势展望！

发表时间: 2024-06-19 14:42

大数据文摘受权转载自智源社区

从Figure01和人类交流自如、特斯拉Optimus叠衬衫，以及宇树G1惊艳发布，再到公众对人形机器人的争相追逐可以看出，具身智能是2024年最炙手可热的科技概念。

当前，具身智能在学术层面已经实现了哪些跃迁？距离具身智能走进千家万户，还需要实现哪些方面的突破？理想与现实之间，卡脖子的关键因素还有哪些？

在6月15日的具身智能论坛的panel环节中，来自北京大学、清华大学、NUS、UCSD、宇树科技的顶尖专家们，从数据、算法、系统角度“隔空回答”了这些问题。

清华大学助理教授，视觉与具身智能实验室主任高阳认为成本是阻碍的重要因素：“机器人本体的高成本是限制仿生人工智能发展的主要瓶颈之一。”

宇树科技创始人&CEO王兴兴认为目前训练数据不够多维，限制了具身智能的发展，他表示：如果结合实际操作中的真实数据进行强化学习，效果会更好。

NUS助理教授邵林也对数据的重要性表示认同：核心问题在于如何定义和处理数据，实现最高效和实用的解决方案，关键是对数据的理解和有效利用。

同时学者们对未来发展也有独到的见解，例如北京大学副教授，智源学者卢宗青认为“机器人触觉”至关重要：如果没有触觉，就像是在玩一场虚拟游戏，而不是与真实世界进行交互。

北京大学助理教授，智源学者王鹤表示“模块化系统”或许是关键：即使在工厂这种复杂环境中，只要设计一个良好的模块化系统，也可以实现sim-to-real的无缝转换。

......

以下是具身智能圆桌论坛的实录，编辑做了不改变原意的整理。

01 关于虚拟与现实：不同的技能库

主持人：王鹤丨北京大学助理教授、智源学者

王鹤：虚拟环境中的智能体与具身智能体有哪些异同？它们之间的技术怎样相互借鉴？

卢宗青：每个Agent在不同世界中的技能库不同，但在技能库之上可以实现统一。无论是多模态模型还是统一具身模型，只需更换技能库。就像人类可以在现实世界行走，也可以操作电脑。

数字世界的优势在于可以低成本地模拟强化学习过程，研究成本远低于物理世界。关键在于通过丰富的交互机会，让智能体学会自主完成任务的方法。

先前的训练策略是在模拟器中进行的，目的是为现实世界提供模拟。如果能解决从模拟到现实的问题，两者的差距将会缩小。

王鹤：在《我的世界》游戏中，一个Agent可以完成非常复杂的生产全过程。在物理世界中，这个过程有何类比？对我们有何启发？

卢宗青：《我的世界》可以通过两种方式实现：一种是调用API进行代码生成（code generation），另一种是通过强化学习，在动作空间上学习策略。

可以借用API对机器人控制，但成本仍然很高，现实中无法直接用GPT-4调用API来完成复杂任务。例如，可在《我的世界》中建造房子，但不能直接在物理世界调用API实现。

《我的世界》中建造房子

这其实涉及到底层的策略学习问题，在更高层次上，无论是在虚拟环境还是现实环境，依然可以通过调用技能库来完成各种任务。

高阳：在高层次数据方面，互联网上有大量资源，可以直接用于训练大模型。而对于机器人来说，难点在于如何处理底层技能的实现。

具身智能（比如机器人）的问题更复杂。虚拟智能体可以在计算机环境中运行，但具身智能需要模拟器，这中间有一个转换的问题。所以，尽管两者在大框架上面临的挑战类似，但在具体的操作策略上还是有区别的。

02 关于算法：追求统一

王鹤：怎么看待目前具身智能体在技能层面的现状？有哪些API可供调度？如何才能扩大它们的应用范围？

邵林丨NUS助理教授

邵林：理想的API应该是一个统一的模块化系统。我们不希望机器人在实际执行任务时，要从100个不同中挑选一个。这不仅耗时，还可能导致选择错误。

理想的解决方案是将所有API整合为一个统一的API，这样有两个主要好处：

首先，可扩展。无论是什么任务或底层技能，只要能用统一的方式表示，就可以整合进来，大大提高系统的灵活性和适应性。

其次，提高泛化。通过统一的API，我们可以更好地适应不同的任务和环境，使系统在各种应用场景中都能表现出色。

王鹤：Contact map 是一种通用的表示方法吗？它能否把操控整合并统一到一个API？

邵林：关于操控（manipulation）的定义，很多人都无法给出明确的答案。不过，卡耐基梅隆大学的教授对此有一个描述：所谓操控，就是机器人通过与物体接触（Contact）来改变物体形态的过程。

在这个过程中，机器人通过与物体接触，施加某种力量和力矩，改变物体的当前形态，使其达到所需的状态。当描述这个过程时，并没有提到使用什么样的机器人或操作什么样的物体。关键在于通过机器人与物体的接触，施加力量，从而改变物体的形态，这就是操控的核心。

“接触”是一个广泛的概念，包括所有物体之间的一般接触（general contact）和特定接触（level contact）。这种接触不仅是一次性的，而是涉及物体空间内的各种接触形式。

具体来说，接触不仅是机器人与物体在某些区域的接触，还包括机器人如何作用于物体，比如拉动、推挤或细微移动。像抓取和放置的过程，不只是简单的推拉，还包含更复杂的操作。所有这些都属于一般接触。

总的来说，接触不仅包括直接的物理接触，还涉及复杂的操控方式。通过这些接触和施加的力量，机器人可以改变物体的形态和状态。

高阳：接触（contact）和流动（flow）是同一事物的两面。接触关注物体接触的瞬间及位置；流动则关注接触后如何操作。一个完整的表示需要结合两者，既要明确接触点，也要知道如何移动物体。尽管将来可能会有更统一的表示方式，目前结合接触和流动，已经能实现通用操作表示。

王鹤：目前，人形机器人主要通过强化学习来实现行走，让强化学习效果稳健的秘诀是什么？为什么踢机器人一脚它都不会倒？

王兴兴丨宇树科技创始人&CEO

王兴兴：这个问题其实不复杂。国内外的学术圈已经利用机器人发表了许多顶尖的学术论文，可以直接查看这些论文，就能获得大致的了解。

机器人行业，包括传统算法和AI部分。强化学习是一个很好的概念，但要真正落地，还需要许多其他技术的支持。我们不仅使用了强化学习，还结合了模仿学习和对抗生成网络等技术。强化学习只是一个总体框架，实际的模型架构设计更加复杂。不是简单地搭建一个多层神经网络，再加上强化学习的反馈机制就能解决问题，实际操作要复杂得多。

王鹤：在这个问题上，我们可以请教一下卢宗青老师。卢老师，您怎么看待Sim-to-Real技术？

03 关于数据：Sim和Real并举

卢宗青：仿真数据和真实数据都非常重要。真实数据帮助缩小仿真环境和实际物理环境的差距，需要通过迭代收集大量数据进行优化。训练完成后，我们在真实机器人上测试，收集数据，然后调整奖励函数，形成训练和测试的循环，逐步提高性能。

在运动控制上，大量数据用于训练机器人完成任务是正确的方法。要提升策略的泛化性，可以使用transformer策略，通过提示学习等方法，教机器人完成任务，减少对数据的依赖。研究如何在不依赖大量数据的情况下提升策略的泛化性，也是一个重要的课题。

王鹤：过去一两年，在仿真器开发上，尤其是可变形物体和流体模拟领域，进行了不少工作。“从仿真到现实的差距”是否能够弥合？目前有哪些进展？

邵林：这是一个非常有趣的问题，尤其是对于机器人操作的仿真器而言，存在很高的需求。然而，图形学领域的重点可能与此不同。机器人操控任务需要在物理建模方面非常精确，而对渲染的要求相对较低。

我们团队一直希望仿真器在物理上尽可能逼真。例如，我们开发了一个让机器人学习打领带的系统。打领带涉及复杂的弯曲和拓扑变化，对仿真要求很高。实现机器人在真实物体上打领带，也是一种突破。

04 关于数据：卡脖子的关键

王鹤：如何看待具身智能体的数据来源？

王兴兴：目前，我们的机器狗和人形机器人主要通过纯深度强化学习在仿真环境中训练，然后直接应用于实际机器人。如果第一次训练效果不理想，会调整奖励函数再训练，经过几次尝试，通常可以取得较好的效果。通过仿真环境中的实时交互数据进行训练，效果非常好，尤其是在纯运动控制领域，如跑步、跳跃或跳舞，仿真数据已经足够。

然而，如果结合实际操作中的真实数据进行强化学习，效果会更好。尤其是在让全尺寸人形机器人执行复杂任务或进行人机交互时，单靠仿真数据可能不够。主要问题是：现有仿真环境对接触的模拟很粗糙，为了效率，使用的模型过于简单。

如果希望机器人在更真实的环境中操作，比如做饭或装配零部件，就需要使用高精度仿真环境，这要求更高性能的仿真器和显卡，如更真实的RGB相机，需要强大的显卡处理能力，这会增加成本。因此，我认为，与其投入大量资源在高度真实的仿真上，不如直接用实际机器人操作，采集的数据量很大，成本相对低廉。

简而言之，接近真实环境的高精度仿真代价很高，特别是对布料和流体的仿真几乎不可行。所以，我认为可以先用仿真环境解决问题，解决不了时再用真实数据调整。最终，真实数据的使用是不可避免的。

王鹤：今年 ICRA 大会的最佳论文展示了一种“新的数据集”。这种数据采集方式与传统的方法相比，有何区别和优势？

高阳丨清华大学助理教授，视觉与具身智能实验室主任

高阳：仿真技术取得了很大进展，但核心问题是，获取一个技能需要多少成本。无论仿真器多复杂，最终需要专业人员开发。一旦建成，就能通过大量计算获取数据来训练技能。

在现实世界中，数据需要通过人工采集。两者没有绝对的优劣。在当前技术阶段，简单的运动任务可以通过仿真解决，如拾取和放置等简单接触任务。

然而，复杂任务，如转笔任务，需要长时间研究，因为这类任务涉及高度接触和动态变化，仿真和现实之间的微小差异都会影响策略的有效性。因此，对于简单任务，仿真数据非常有用，而复杂任务仍需依赖现实世界的数据。

王鹤：对于简单任务，如平地行走或简单物体抓取，仿真效果较好。对于复杂任务，有两种可能：在真实世界中学习或提升仿真器性能。请问，如何看待在真实世界中学习的效率？

王兴兴：对于简单任务，如跳舞或行走，目前并不大量依赖真实数据，但在某些情况下，会使用真实数据作为参考。通常，先用模型预测控制生成运动轨迹，或者从仿真中获取轨迹，再让机器人进行模仿学习。

例如，机器人学习跳舞时，初始动作来自真实表演的数据。采集后筛选优化，再输入仿真环境训练，从而让机器人准确执行舞蹈动作。

对于更复杂的任务，如灵巧手的模仿学习，目前在仿真和实物上都有尝试，但机械臂主要依赖真实数据，虽然数据量不大，但成功率和实用性尚不理想。机械臂主要应用于简单的抓取任务，泛用性和处理复杂任务的能力仍然不足。

在工业场景等复杂操作中，使用真实数据非常重要，因为涉及大量零部件的接触和复杂的物理环境，仿真训练可能效果有限。仿真器需要处理准确的物理模拟和材料变形，调整仿真器的时间成本很高，且仿真与真实环境差距较大，尤其在复杂任务中，如转笔任务，实际操作效率可能更高。总的来说，对于复杂操作任务，实物数据在当前阶段仍是更有效的解决方案。

王鹤：今天的多模态大模型主要依赖互联网数据。如果设想中的多模态图文大模型有三条数据来源，第一条显然是互联网数据；第二条是合成数据；第三条则应该来自未来的通用机器人。正如马斯克所说，未来如果有100亿个仿人机器人，它们可以随时随地录制数据，因为人类在日常生活中并不总是在用相机记录一切。只有当通用机器人数量足够多时，才能解决图文大模型特别是图像数据的覆盖不足问题。

如何看待这种说法？

邵林：对于视觉或图文多模态大模型，应用于机器人领域的核心问题仍然是数据采集。正如之前提到的，机器人数据采集非常昂贵，我们需要成熟的数据集或规模适中的技能库供机器人使用。目前的挑战在于，基础技能库不足以支持机器人在大模型中的广泛应用。

虽然我们能够制造大量机器人，但如何为它们配备足够可用、安全且高效的系统，以便有效采集数据，是一个亟待解决的关键问题。

王兴兴：目前我们面临的是一个“先有鸡还是先有蛋”的问题：现有模型质量不高，导致机器人无法采集到高质量数据；而没有足够的数据，我们又无法做出优质的模型。因此，无论是多模态大模型还是机器人模型，结构上还有很多改进空间。

理想情况下，我们应开发对数据需求较低的模型，就像人类和动物一样。一个小孩在成长过程中，通过较少的数据就能学会很多东西，包括语言。相比之下，现有的大语言模型对数据依赖性很强，这与人类学习方式不同。

在智能模型和模型结构方面，还有很多探索空间。现有的神经网络架构可能并非最优，可以研究脉冲神经网络或其他新结构。因此，我认为，与其继续完善现有的大语言模型和多模态大模型，不如探索开发全新模型，这样可能会带来更大突破。

05 关于系统：两种技术路线

王鹤：当前最火的具身大模型之一是自动驾驶领域。特斯拉从最初的模块化系统，将感知、规划和控制分为三步，到如今声称实现了端到端的大模型。特斯拉认为，端到端方案成功实现了L4级别的自动驾驶，而模块化方案未能达到这一目标。

如何看待这两种方案？

卢宗青丨北京大学副教授、智源学者

卢宗青：模块化系统是一种将任务分成模块化的方式，这与自然界中将功能划分到不同模块的理念类似。对于自动驾驶，模块化的方法可能涉及到更多的数据收集，以实现端到端的解决方案。可以这样理解，人类的大脑也可以被人为地分成多个区域，每个区域都有特定的功能。尽管大脑本身并不认为自己是由不同区域组成的，但这种模块化的思维方式是人类的先验认知，认为这样做会更有效地实现某些功能。

在科研和产品开发的过程中，模块化是我们可以采用的第一步，因为它可以带来一些初步的成果。随着数据和解决方案的积累，我们可能会找到更好的方法。无论最终的产品是基于模块化的方法还是端到端的方法，这可能并不重要。对我而言，端到端的方法可能最终会与其他方法融合，形成更加完善的解决方案。

高阳：两种方法各自都有其优点和出色之处。我个人更倾向于相信端到端的方法。比如人类在执行任务时，并不会刻意地先做这件事再做那件事，而是非常自然地完成整个过程。例如，当我们想拿起一个杯子时，我们的手自然地伸过去，整个流程非常流畅和高效。

模块化的方法可能是当前数据不够充分时的过渡形态。在短期内，由于缺乏足够的数据，我们无法训练出一个海量数据支持的端到端模型，因此采用模块化的方法。当数据量足够多时，最终我们会转向端到端的方法，因为它能够更自然和高效地解决问题。

王鹤：模型在切换任务时，似乎需要重置。那么，什么时候才能把这些技能全部整合到一个网络中，以实现端到端的处理？

王兴兴：当前的四足机器人和人体运动算法大多采用端到端方式，但在技能训练上，如空翻和行走，通常还是分开进行，尽管这些模型在结构上相似。理论上，可以将这些技能整合到一个模型中训练，难度并不大。

在具体任务上，使用端到端方法已经很普遍。例如，机器人翻越障碍时，会通过深度相机直接控制关节角度，整个流程非常端到端。

但在复杂系统中，直接训练复杂的端到端模型难度很大。就像早期的深度学习只能训练浅层网络，而通过新技术才能训练更深的网络，训练技术至关重要。面对复杂系统时，大模型难以控制和收敛，因此通常将其拆解成小模块，在中间加入约束以便于训练。

目前，直接训练复杂的大模型来实现多任务学习非常困难。将任务分解、分别训练，再合并整体训练的方法更为简单有效。

王鹤：不论是追求通用表示还是实现端到端方案，直接输出动作更合适，还是生成中间表示（如接触图）比较好？对未来系统的发展方向怎么看？

邵林：讨论端到端和模块化时，需要明确“端”指的是什么，以及它的定义位置。端到端的关键在于清晰地定义“端”的位置；端到端模型指的是联合优化和直接从数据中学习，其优势在于能够从数据中直接学习到最优结果。模块化则是将系统拆解成不同部分，再进行组合，强调的是分解和重组的能力。

端到端中可以包含模块化元素，模块化中也可体现端到端思维。核心问题在于如何定义和处理数据，实现最高效和实用的解决方案，关键是对数据的理解和有效利用。

06 关于未来：One more thing

王鹤：目前的多模态大模型有哪些不足之处？我们应该如何提升它们？

高阳：以GPT-4V为例，多模态大模型在理解3D空间时存在一定不足。例如，问它物体在另一个物体的左边还是右边，虽然是简单的问题，但它的回答不太准确。GPT-4V在空间理解方面表现较弱，尤其是在3D空间的理解上，由于图像输入主要是二维的，因此对三维的理解有天然的局限性。此外，虽然它在物理常识方面有一定基础，但准确率可能只有70%到80%，偶尔会出错。

为了解决这些问题，可以通过大模型的多平台协作来改进。开发者可以使用一些在机器人领域特别重要的数据，比如左右等自我中心的信息，这些在互联网上不常见的数据可以帮助提高大模型的性能。

王鹤：如何看待多模态模型的训练？如何进一步提高多模态模型的性能？

卢宗青：GPT-4 系列的多模态模型的训练方式大概是：先预训练一个大型语言模型，然后再融入视觉数据。我个人更看好Meta的方法，他们从一开始就将图文数据和文本数据一起训练，而不是先训练语言模型再融入视觉信息。我认为这种从零开始融合训练的方法可能更有效，但不能确定其一定优于其他方法。

在大模型出现之前，我们通常通过符号化表示和强化学习让智能体通过看图来学习。我认为，这才是合理的起点，而不是先训练所有文本再进行对齐。

对于多模态模型的训练，我认为应该从最开始就将语音、文字和视觉信息一起融入训练，而不是先训练完大型语言模型后再进行对齐。

王鹤：通用机器人在本体层面还需要哪些改进？有哪些方面需要进一步提升？

王兴兴：我一直在考虑是否需要为机器人增加足够的触觉感知，以提升其智能和与外界的交互能力。

触觉传感的设计和实现非常困难，尤其是如果需要覆盖整个机器人本体，几乎是不可能的。因此，我在思考是否真的需要增加大量触觉感知，或者是否可以在较少的触觉感知条件下，使机器人本体在智能上有显著提升。虽然视觉信息非常丰富，但如果机器人有更好的触觉感知，是否可以进一步提升其对环境的理解？这可能是一个值得研究的方向。

此外，我们一直追求提升机器人本体性能、降低成本和提高可靠性。我希望未来有一天，人们可以从垃圾堆中捡几个关节，用胶水粘合，再下载一个先进的通用智能模型，机器人就能够自动站起来，并帮助完成各种任务。这是一个非常理想的状态，对硬件要求低，但对AI要求很高。我期待这样的未来到来。

邵林：关键问题在于降低成本，希望机器人变得越来越便宜。如果机器人成本降低，就能更广泛地应用。目前，机器人本体的高成本是限制仿生人工智能发展的主要瓶颈之一。我们还没有足够的低成本机器人可以广泛部署到各个领域。

如前所述，高成本导致机器人部署数量少，进而导致数据采集不足，形成了一个负反馈循环：少量的机器人部署限制了数据的获取，而缺乏数据又限制了AI模型的可靠性和应用范围。然而，如果能逆转这种情况，形成正反馈循环，那么更多的机器人部署将带来更多的数据，提升AI模型性能，促进机器人在更多领域的应用，从而推动硬件的进一步迭代和发展。

高阳：触觉是一个非常重要的感知模态，想象一下，当看到一个瓶子时，即使闭上眼睛，也可以通过伸手触摸到瓶子，然后将其抓住，并且能够进行许多复杂的操作，即使只知道大致位置。触觉在这种情况下显得尤为重要。此外，不必追求全身都配备复杂的传感器，可能只需要在手部和夹指上安装一些传感器，这样已经能够显著提升机器人的感知和操作能力。这是我目前对机器人硬件发展的最大期待。

卢宗青：最近在做机器人演示时，有个深刻的体会。假设我是一个机器人，如果没有触觉，我会觉得什么东西都抓不起来。即使有手，没有触觉的情况下，很难学会抓取的技巧。

从另一个角度来看，触觉不仅仅是一个操作工具，它还为我们提供了在真实物理世界中存在的依据。如果没有触觉，感觉就像是在玩一场虚拟游戏，而不是与真实世界进行交互。

王鹤：具身智能在未来三年的产业发展前景如何？大家会从哪些角度切入？

高阳：我认为具身智能的发展前景广阔，但它需要较长时间的积累才能实现。未来三年内，具身智能可能会在一些操作层面相对简单的行业开始逐步落地应用。

邵林：我更关注的是具身智能的容错性问题，例如，当机器人出错时该如何处理。具身智能在未来三到四年内可能会优先应用于安全性要求低、错误代价小且有经济效益的场景。只有在这些前提下，技术才能逐步稳定和推广。

王兴兴：在未来两到三年内，具身智能可能会在一些相对简单的工业领域或体育赛事中得到应用。这些场景目标明确，过程清晰，相对容易实现。

卢宗青：两个方向，一个是成本效益高的行业，另一个是需要替代人力以提高效率或保障安全的领域，都是具身智能未来发展的潜在应用场景。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝