这几天AI圈子像是过节一样,显示周一晚上OpenAI的发布会,发布的产品和之前的消息相差不多;然后又是昨晚上Google IO大会,也发布了新的大模型产品。这篇文章,我们把焦点放在GPT-4o上。
GPT-4o本次共更新了7项内容,作者选择了4个要点,从人机交互的角度和我们分析,看看和大家的理解有那些不一样。
前天半夜ChatGPT-4o的发布会应该未来几天AI圈子最有热度的话题了,其中几条更新其实可以从人机交互的角度解读一下。
首先我们还是先来看看GPT-4o更新的主要内容(只关注交互角度解读可跳过):
这其中的第1、2、3、5点都可以从人机交互的角度聊一聊。
今天作者也看了一些写GPT-4o更新的文章,有些人仅仅把多模态交互能力理解成了我们可以不仅仅使用文字和GPT交流了,这么理解实在太小看多模态交互能力了。
要知道,人类通过文字表达和声音表达,即使是完全同样的文本。所包含的信息也有很大的差别。文字只是静态的信息,而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。
同样是【你好】,文字只能表达1种含义,而声音可能能表达4-6种。对于程序来说,多模态交互意味着从更多来源获得信息(指视、听、文、环境等来源)。也意味着获得更多信息(例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音)。
从多来源获得信息并获得更多信息,GPT就可以缩短推理、判断等过程,更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来GPT给与反馈的速度和质量自然会有对应的提升。(当然同样也有模型方面带来的提升)
除了声音之外,GPT-4o的多模态交互能力还包括视觉理解能力,例如能识别图像中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。
以上是多模态交互能力中,人向GPT输入过程中的意义,那么对于人机交互的另一部分:GPT向人输出的阶段,同样意义非凡。
GPT-4o可以根据需要以最合适的模态进行回应,在之前GPT只能以文字进行回复,但之后则可以是文字、声音、图像。声音模态的意义是支持更多交流场景以及对无障碍交互的包容。图像的意义就不用多说了吧,无论是取代了命令行界面的图形化界面,还是你晋升答辩时准备的PPT,都能体现图像相对于文字的优势。
如果说多模态交互能力代表了输入和输出这两个阶段。那自然语言理解能力就代表了【处理】这个阶段。当GPT从多来源获得信息后,下一步就是理解这些信息,理解过后才能给出回复信息。自然语言理解能力的提升意味着GPT-4o对用户意图的识别更加准确了。那么自然后续回复的内容、回复的模态都会有更高质量的结果。
这一点的意义首先体现在长篇对话上,我们可以类比人与人之间的交流方式,两个相识了多年的朋友,可能他们一句很短的对话就可以包含非常大的信息量,例如:
张三对李四说:你上回那个设计方案真是太牛了!
这句话本身没提及但张三和李四都能理解的信息可能有:
如果想清晰的表达以上的1、2、3包含的具体信息,可能需要上千字或十分钟的对话才能说清楚,但由于这些信息都已经被储存在人的记忆中,两人在交流的过程中就可以省略很多详细的描述和前置条件,用一句话表达大量信息。
对于GPT-4o而言,可记忆的上下文长度增加就意味着他变成了一个对你更熟悉的程序,所以当用户与GPT-4o交流时,就可以像张三和李四交流那样使用更少的信息交流更多的信息,同时能够保障交流质量。
要注意的是,刚刚我使用了对你更熟悉的程序这样的描述,而不是对你更熟悉的朋友这样的描述,这里面关键的区别有两方面,第一方面是所谓的上下文长度,可以类比人与人相识的时间和交流的信息总量、了解程度。第二方面是
我们可以畅想一下,如果现在的新生代儿童从很小的年龄就开始使用AI工具,并且AI工具附着在便携式智能设备上,以多模态与用户同时感知周围环境,再加之GPT-4o的可贯穿数十年的可记忆上下文长度。这样的AI可能会成为用户最熟悉的朋友,甚至远超父母、家人。如果再给与这个AI相应的硬件,那几乎可视为智械族了~
文生图能力以及对图片的智能编辑能力已经是很多其他产品早已具备的了,不过GPT-4o这次更新帮助用户节省了之前都是由用户操作的不同数据类型转化的操作,改为由GPT-4o代替,对用户来说 同样是操作效率的提升。就像我们之前如果在某张图片上看到了一个新概念,那可能需要用打字或ocr的方式将图片转化成文字再继续使用。而GPT-4o以后将为用户省掉这个过程。
其他的像创意工作、广告制作、产品设计、教育演示等方面的意义就不再多说,市面上已经有很多类似的产品了。
在整个发布会之中,还有一个令用户们wow的点是GPT-4o的响应时间仅为232毫秒(平均320毫秒),几乎达到了与人类实时对话的水平,显著优于前代模型的延迟表现。
其实我们可以从以上的解读中思考一下,为什么GPT-4o的响应时间得到了如此大的提升?
综合以上3点提示再加上本身模型能力的提升,GPT-4o的响应时间达到232毫秒也就容易理解了。
当GPT-4o的响应时间达到了人类与人类对话的水平时,很多应用场景的想象空间就更大了。具体作者想到了如下几方面:
专栏作家
杜昭,微信公众号:AI与用户体验,人人都是产品经理专栏作者,实战派设计师,目前在某手机公司负责手机OS交互设计,所负责产品覆盖用户数亿,主要研究AI与人机交互设计的融合及人因学对用户体验的影响。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。