ChatGPT迈向AI助理：实现真人般对话体验

发表时间: 2024-05-14 18:11

ChatGPT的本次升级，意味着“AI助理”的技术竞争开始进入了新的阶段。图/IC photo

据媒体报道，北京时间5月14日凌晨，OpenAI在春季发布会展示了ChatGPT的更新功能。这些功能主要集中在用户的交互体验上，用户可以通过文本、音频、图像等任意方式进行组合输入，并得到ChatGPT的实时回复响应。

在现场演示中，OpenAI重点展示了实时对话交互和语音多样化的功能。现场展示显示，ChatGPT不仅可以像真人一样语音聊天，还可以根据用户需求，识别和模拟不同的情绪、语调进行输出。

此次升级尽管不是参数或算力上的重大前进，但其在用户体验尤其是使用门槛上的价值仍然不容小觑。

OpenAI的CEO山姆·奥特曼将本次更新总结为“人类级别的响应”。从使用体验上看，使用大模型的场景将变得更像是与“智能助理”进行对话交互，你可以用语音、文本等综合方式不断提出要求，并得到即时的答案回复。

例如，此前如果你希望通过ChatGPT来帮忙做数学题，那么，用户需要做的步骤有：打开ChatGPT，以文本形式复制题目，等待ChatGPT响应，得到完整答案。如果希望听到有步骤的语音讲解，则需要等待文本答案全部生成之后，再发出新的指令。

而随着此次交互升级之后，这一体验被改进为了：用户正常在电脑上做题，需要询问的时候，直接语音或者让ChatGPT根据当前屏幕内容进行解答，而ChatGPT则会根据用户做题场景的需求，进行步骤引导，而不是直接给出答案。

如果你正在使用书本做数学题，则可以打开设备的摄像头，由ChatGPT通过摄像头看见的内容来完成解答。并且，中间用户可以随时打断ChatGPT进行提问与交互。

本次ChatGPT的体验升级，主要是围绕人类信息交互的核心场景与方式来进行。人类日常信息输入的主要方式是“观看与听说”，而信息处理的主要方式是“逻辑与情绪”。因此，新升级后的ChatGPT重点加入了“观看屏幕”“情绪模拟”等功能，以适配于人类日常的交流习惯。

过去基于特定任务指令而出现的生成性交互，仍然只是大模型应用于特定生产场景的初步尝试。大模型如果要真的进入人类生活，模拟人类信息交互的真实场景与逻辑则是必需的关键一步。

在关于“人工智能”的诸多想象中，不管是文学作品还是科幻电影，都默认人工智能是“使用人类交互形式来沟通”的信息处理助手。这次实时语音交互功能的加入，毫无疑问使得大模型的使用体验更加符合人们对一个“人工智能助理”的期待。

模拟人类日常生活场景，实现“所见所得”或语音实时交互，已经成为当下大模型行业的重要升级方向。不久前，Meta（美国互联网公司，原名Facebook）发布的第二代人工智能眼镜，同样也实现了利用摄像头传感器，对用户所看到的一切进行实时的交互、翻译等功能，从而一跃成为了广受欢迎的智能硬件。

设想一下，如果大模型可以“看到人眼所看到的一切并随时给出答案”，或者可以“随时听懂你要问的问题并随时给出答案”，甚至可以“读懂你当前的情绪并根据你的情绪提供答案”，那么，大模型就离人们设想中的“生活助理”的功能不远了。

从颠覆性的角度看，大模型除了在作图、作曲、数据处理等生产领域发挥特定作用之外，更大的挑战任务，是进入公众的日常生活，真正成为每个人的“生活智能助理”。如果大模型可以承接住用户日常生活中绝大多数的信息检索、处理、决策，我们刚刚熟悉的商业世界、技术应用也将随之发生巨大变化。

此前，微软尝试将Copliot融入Windos11，谷歌和亚马逊也正在尝试将自己的大模型融入到系统与产品之中，这些动作，都是在争夺用户“AI助理”的入口。而ChatGPT的本次升级，意味着“AI助理”的技术竞争开始进入了新的阶段。

或许很快，大模型将不再是一个只有少数人或特定行业使用的生产力提升工具，而将迅速成为普通人日常生活的重要助理，并最终成为公众日常信息交互的主要入口。

撰稿 / 马尔文（媒体人）

编辑 / 迟道华

校对 / 李立军