中国工程院院士王耀南解读:AI型驱动的具身智能人形机器人新进展

发表时间: 2024-12-20 09:28

前言


人形机器人将成为继个人计算机、手机和智能汽车之后新一代智能终端,可能形成万亿级市场。



以下内容来源于中国工程院院士王耀南在2024机器人和智能制造技术与标准创新发展(杭州)大会上的《AI大模型驱动的具身智能人形机器人与展望》报告实录,报告围绕人形机器人研究背景与意义、国内外研究现状、关键技术及应用发展趋势与展望四部分展开,整理删改:

我们正处于智能化时代,从机械化时代的工业1.0,到电气化时代的工业2.0,再到信息化的工业3.0,现在我们正迈向工业4.0智能化的时代。在这个时代背景下,工业机器人、服务机器人和特种机器人发挥着越来越重要的作用。智能机器人已广泛应用于工业制造、国防安全、智能服务和智慧农业等各个行业,呈现出同步发展的趋势,并具有广阔的应用前景。

在过去的几十年里,工业机器人发挥了重要作用。而为了解决服务机器人的问题,人类与我们共同走向了人形机器人的研发之路。


那么,为什么要发展人形机器人?

人形机器人主要模仿人的形态、运动和功能,可以与人进行交流。它不仅模仿了人的外形、外观和行为,还是一种通用的智能机器人,是国际公认的人工智能、高端制造新材料等尖端技术的集成者,也是科技竞争的制高点和未来的新赛道。

我们预判人形机器人将成为继个人计算机、手机和智能汽车之后新一代智能终端,可能形成万亿级市场。因此,我们关注产业化路径,提出了人形机器人发展的主要动力来自于需求牵引和整机带动。应用场景,如智慧农业、医疗、家庭服务等,是推动人形机器人发展的关键。整机研发是主攻方向,软件和硬件必须协同,以培育一个完整的生态,进而带动产业链、创新链和人才链的发展转型升级。


在关键技术突破方面,我们将人形机器人的发展划分为大脑、小脑和肢体三个方面。大脑主要解决复杂环境感知决策、人机交互以及提升机器人的学习适应能力。小脑,即过去的控制系统,主要负责运动建模、复杂控制以及各种形态的控制。而肢体方面则是整机和部件的共同发展。


未来,人形机器人开发工具要形成大产业,必须具备大模型训练数据标注软件和应用软件。这样我们可以将机电一体化考虑在内,形成人形机器人的发展路线。


我们2020年提出的人形机器人架构是一个云网端架构的系统,大脑负责多模态模型建模、强化学习、地图创建和数据训练。数据训练端作为云端大脑,训练完成后,通过网络高速互联互通进入人形机器人机构本体。机构本体的小脑则重点管理表情计算、视觉控制、感知信息等各种驱动手和关节的控制,形成一体的小脑控制。


目前,人形机器人国内外研发重点主要包括:

环境感知

人形机器人的环境感知部分主要涉及各种传感器的研发,包括内部传感器、惯导传感器、立位传感器、皮肤传感器、外部传感器、视觉传感器、激光雷达传感器以及声学传感器等。


执行器

执行器部分涉及驱动电机和灵巧手等执行机构。研发动力部件、驱动减速器等关键零部件对于人形机器人的发展至关重要。


小脑开发

小脑负责机器人的运动控制,从传统的模型驱动转向数据驱动。通过强化学习,机器人小脑变得更加灵活,加速了控制器的开发。


大脑开发

大脑负责感知、控制、传感和控制一体,涉及高级决策核心。通过多模态模型建模、强化学习、地图创建和数据训练,大脑能够管理和协调机器人的各种功能。

近年来,人形机器人发展迅速。通过感知、传动、算一体的端到端大模型学习和训练大脑,人形机器人得到了更多的活力。大模型使人形机器人可以解决复杂规划问题,具备情感、精准执行能力和理解人的意图等优势。此外,具身智能的发展也加速了人形机器人的多模态交互和学习能力。


经过研判,今年人形机器人规模发展非常迅速,但仍处于艰苦的爬坡过坎阶段。从市值分析,目前中国在人形机器人产值尚未达到预期。


从分布角度来看,国内人形机器人的地域分布相对集中,主要集中在沿海发达地区,包括重庆中部地区和南部地区。我们更多地需要通过形成产业生态链、创新链和上下游联动,以推动人形机器人的大发展,形成真正的新三板


回顾过去,我们团队在1985年就开始研发机器人,主要采用模型驱动,如神经网络模型驱动的机器人智能控制。然而,开发周期缓慢,需要完成多个程序。为了改善控制能力,我们设计了模糊神经网络控制系统作为辅助修正学习。现在,我们需要融入新技术,如深度强化学习和大模型驱动,以加速人形机器人的开发周期。

那么,AI大模型如何赋能人形机器人开发?

将AI大模型赋能到人形机器人,需要注意几个方面。首先,通过这个模型提升人形机器人的自然语言交互,使机器人能够与人进行自然语言的交互理解。其次,需要识别复杂场景视觉感知。第三,需要对动作和规划进行精准把控。最后,需要进行自主学习提升来完成任务。

人形机器人与其他机器人的最大不同,在于它需要具备情感计算和表达能力。大模型为机器人注入了新的活力,使人形机器人具备了情感表达和分析能力。


未来,人形机器人行业还有很多工作需要完成。我们应该联合企业、政府、高校和研究所,共同梳理和发力,让人形机器人真正走向生活、智能制造和国防等领域。


首先,我们需要打破训练数据大模型之下的壁垒,充分利用他人的优势进行开发。其次,我们可以采用小模型进行分布式开发。最后,我们需要探讨如何高效地应对大模型的多模态企业特征、提升端到端控制的通用性和训练效率、保障模型的泛化能力和可解释性等问题。


为了实现这些目标,我们需要研究人工智能大模型,推动人形机械一体化发展。我们需要设立一个开源数字底座,涵盖计算智能、感知智能、认知智能、决策智能、行为智能以及真正的具身智能。这个底座应该具备感知、认知、思考、分析、判断、推理和交互功能,以推动人形机器人具备智能自主操控性。



此外,未来的人形机器人还需要具备情商和智商兼备的特点。数字人与机器人的有机结合将是未来的发展趋势。数字人已经在各个领域广泛应用并形成产业化,我相信实体人形机器人也将与数字人一样在数字空间和实际中发挥作用。为了实现这一目标,我们需要取得突破,在数字人具备群智兼备的基础上,还需要解决脑认知驱动的情感激励、多模态前置大模型融合的解释建议以及个性化情感的表征与动态等科学问题。


总之,通用人形机器人的发展需要多学科交叉协同创新,突破运动、操作、智能三大专业技术。我们应该携手共进,无论是企业、高校还是科研院所,都应该共同努力推进人形机器人的发展。让我们携手艰苦攻关,实现通用人形机器人的梦想!