3月13日,OpenAI投资的人形机器人——Figure 01迎来重磅更新,接入最新版ChatGPT后,它能和人交流描述眼前看到的事物。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。
Figure 01,最懂你的人形机器人?
得益于 OpenAI 多模态大模型的强大支持,Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子,对它来说都是小菜一碟。饿了,想让它整口吃的,它能秒懂你的心思,麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾,一边跟你解释为啥刚才给了你苹果。在人类的一声令下,Figure 01 还能做家务,收拾餐具,这机器人,简直是家庭生活的最佳伙伴。
综合来看,Figure 01拥有的能力包括:
一、视觉识别和理解。当人类问Figure 01看到了什么,Figure 01回答道:“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架,以及你站在附近,手放在桌子上。”
二、语言识别和理解。当人类问Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了人类,并表示这是“唯一我可以从桌上为你提供的食物”。
三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。
机器人的速度已经接近人类速度
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。
研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。
这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。
人形机器人加快“进厂打工”
值得注意的是,Figure AI近期还与汽车制造商宝马公司签署了一项商业协议,将在汽车制造中部署通用机器人。
在人工智能技术的加持下,人形机器人的智能化水平大幅提升,并加速进入工厂等真实的工作场景当中。梳理发现,已有多家海内外公司将在工厂中引入人形机器人,或已经演示了机器人“进厂打工”的视频。
去年底,美国机器人公司AgilityRobotics宣布,将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”,并且承诺每年将生产1万台智能人形机器人“Digit”,作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人,用于协助员工完成仓库中的搬运工作。
今年1月,特斯拉CEO埃隆·马斯克在财报电话会上透露,特斯拉正致力于在2025年实现人形机器人Optimus初步出货,马斯克还表示,预计2024年Optimus在特斯拉工厂进行实用性测试。
国内方面,今年2月22日,“人形机器人第一股”优必选发布了工业版人形机器人Walker S在新能源车厂的首次实训视频。视频中,Walker S完成了对蔚来汽车门锁、安全带、车灯盖板的检测,并以流畅的动作贴好了车标。在整个过程中,Walker S展示出精巧的身体控制能力,手部动作尤为灵巧。优必选创始人、董事长兼CEO周剑曾透露,已经在跟多家新能源汽车制造厂接触,“2024年会有更多工业制造客户的消息”。
具身智能加速商业落地
大部分人很容易将人形机器人和具身智能画等号,其实不然,人形机器人只是具身智能的物理形态之一。英伟达公司创始人黄仁勋将具身智能定义为,能理解、推理及与物理世界互动的智能系统。具身智能并不一定以人形状态呈现,根据应用场景不同,可以有无尽想象力,比如可能是动物、汽车等形态。
近年来,具身智能作为人工智能研究中的一个新领域,热度不断攀升。根据赛迪智库最新研究显示,国家层面,世界主要经济具身智能产业的发展方向各有侧重。美国不断推进具身智能基础研究,并且掌握着前沿技术;日本聚焦工业机器人和服务机器人领域;韩国重点关注机器人核心零部件和软件、自动驾驶汽车领域的技术创新;欧盟则全方位推进具身智能发展。企业层面,国内外具身智能主要企业亦动作频繁。谷歌发布具身视觉语言模型,打造机器人大脑;微软以ChatGPT为内核,通过对话来指挥机器人操作,进一步简化人机交互模式;英伟达发布的多模态具身AI系统可以在视觉文本提示的指导下执行复杂任务;阿里入局“AI+机器人”赛道,将“千问”大模型接入工业机器人;优必选人形机器人已应用于教育领域。
近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能机器人,并有多家企业拟在今年实现具身智能的商业化落地。业界普遍认为,2024年有望成为具身智能商业落地元年。
来源:海报新闻、四川日报、羊城晚报、中国基金报等