多模态学习:人工智能的新里程碑

发表时间: 2024-06-06 20:55

当今科技迅猛发展,人工智能(AI)已经成为改变各行各业的重要力量。从自动驾驶到智能助手,AI的应用无处不在。随着技术的不断进步,AI潜力也在不断扩大。

当前,AI的一个重要发展方向是多模态学习,即通过整合多种感官数据(如视觉、听觉、触觉)来提高机器的感知和理解能力。计算机视觉与触觉结合,是这一领域的重要课题。触觉提供了与视觉互补的信息,有助于机器在复杂环境中做出更准确的决策,是实现具身智能的关键一步。

“随着数据量的爆发式增长,计算能力的不断提高和算法技术的突破,多模态学习将成为AI发展的重要方向。”耶鲁大学视觉实验室博士研究员杨丰瑜说。

基于此,杨丰瑜团队提出了使用于多传感器的触觉大模型 UniTouch,适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器,为具身智能机器人的研发提供支持,特别是在人形机器人领域。通过整合视觉和触觉等多种感官信息,AI将能够更好地理解和适应复杂环境,从而实现更高水平的智能。

作为国内人工智能和机器人产业的“双高地”,上海是最早发力具身智能领域的先行者。工信部2023年印发的《人形机器人创新发展指导意见》提出,人形机器人技术发展潜力大、应用前景广,已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。

另外,根据《上海市人工智能产业发展“十四五”规划》,上海计划基本建成具有国际影响力的人工智能产业创新发展高地。