多模态学习：人工智能的新里程碑

发表时间: 2024-06-06 20:55

当今科技迅猛发展，人工智能（AI）已经成为改变各行各业的重要力量。从自动驾驶到智能助手，AI的应用无处不在。随着技术的不断进步，AI潜力也在不断扩大。

当前，AI的一个重要发展方向是多模态学习，即通过整合多种感官数据（如视觉、听觉、触觉）来提高机器的感知和理解能力。计算机视觉与触觉结合，是这一领域的重要课题。触觉提供了与视觉互补的信息，有助于机器在复杂环境中做出更准确的决策，是实现具身智能的关键一步。

“随着数据量的爆发式增长，计算能力的不断提高和算法技术的突破，多模态学习将成为AI发展的重要方向。”耶鲁大学视觉实验室博士研究员杨丰瑜说。

基于此，杨丰瑜团队提出了使用于多传感器的触觉大模型 UniTouch，适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器，为具身智能机器人的研发提供支持，特别是在人形机器人领域。通过整合视觉和触觉等多种感官信息，AI将能够更好地理解和适应复杂环境，从而实现更高水平的智能。

作为国内人工智能和机器人产业的“双高地”，上海是最早发力具身智能领域的先行者。工信部2023年印发的《人形机器人创新发展指导意见》提出，人形机器人技术发展潜力大、应用前景广，已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。

另外，根据《上海市人工智能产业发展“十四五”规划》，上海计划基本建成具有国际影响力的人工智能产业创新发展高地。