早上一觉睡起来,打开朋友圈,发现又被 Open AI和GPT-4o刷屏了。
就在北京时间5月14日的凌晨,OpenAI 召开了春季发布会,推出了一款名为 GPT-4o 的“旗舰级”生成式人工智能模型,堪称是Open AI乃至AI人工智能大模型发展史上的又一王炸。
据悉,GPT-4o 中的“o”代表“omni”,指的是 GPT-4o 的多模态。言下之意,有了 GPT-4o,你可以任意以文字、音频和图像的方式,与GPT自然地交互了。
注意“自然”这个字眼。接下来我们以实际例子,给大家展示,它是怎么个“自然”法。
首先, GPT-4o让人机交互更直接更流畅。
这意味着,你和GPT语音交互时,不再有交互延迟,而是可以即刻获得回应。
其次,GPT-4o能够在与用户交互时,捕捉和理解用户的情绪,并给予回应。
也就是说,过去人们诟病的“AI是机器,没法处理情绪”这种缺点,正在被攻克。
下面我通过官方直播时的一个演示的视频,来体验一下GPT-4o的即时响应与情绪感知能力:
第三,GPT-4o能够处理背景杂音,还支持插话、被打断这种复杂场景的交互。
在这次演示中,Mark 和 Barret 多次打断了ChatGPT的叙述,并要求它以不同的语调来讲故事。
ChatGPT能够灵活地根据用户的指示调整其语音的音调和情感,展现出从平和的叙述到戏剧化的表达,再到模仿机器人的声音,甚至以歌唱形式来结束故事,这极大地增强了交流的互动性和娱乐性。
第四,GPT-4o能够基于“看见”的事物并立刻进行推理。
在发布会上,GPT-4o通过手机摄像头,看到了一道写在纸上的数学题,并帮助两位演示者解题:
然后,Barret 在纸上又写了“我爱 ChatGPT”(I love ChatGPT)的字样,她的反应也是相当精彩:
写在最后:
如果说过去GPT只能通过文本和人交互,还比较呆板,之前的版本的语音交互还不够流畅、保真,这次GPT-4o的多模态能力极大增强后,AI几乎和人没有什么两样了。
人机可以如此自然地交互,再加上大模型强大的知识储备和推理能力,预示着成千数百的人类岗位,将要被AI抢饭碗。
比如:
家庭不再用为孩子请家教辅导孩子,可以让孩子直接与AI自然地提问,并获得解答;
商家不用再雇人做售前售后客服,直接可以让AI去回答其客户的咨询;
不同语言沟通,也不需要请昂贵的翻译了,直接拿出手机打开GPT,就可以无缝翻译了…
细思极恐啊,同志们。