OpenAI推出GPT-4o,一大波人面临失业危机?

发表时间: 2024-05-14 16:25

早上一觉睡起来,打开朋友圈,发现又被 Open AI和GPT-4o刷屏了。

就在北京时间5月14日的凌晨,OpenAI 召开了春季发布会,推出了一款名为 GPT-4o 的“旗舰级”生成式人工智能模型,堪称是Open AI乃至AI人工智能大模型发展史上的又一王炸。

据悉,GPT-4o 中的“o”代表“omni”,指的是 GPT-4o 的多模态。言下之意,有了 GPT-4o,你可以任意以文字、音频和图像的方式,与GPT自然地交互了。

注意“自然”这个字眼。接下来我们以实际例子,给大家展示,它是怎么个“自然”法。

首先 GPT-4o让人机交互更直接更流畅

这意味着,你和GPT语音交互时,不再有交互延迟,而是可以即刻获得回应。

其次GPT-4o能够在与用户交互时,捕捉和理解用户的情绪,并给予回应。

也就是说,过去人们诟病的“AI是机器,没法处理情绪”这种缺点,正在被攻克。

下面我通过官方直播时的一个演示的视频,来体验一下GPT-4o的即时响应与情绪感知能力:

第三GPT-4o能够处理背景杂音,还支持插话、被打断这种复杂场景的交互



在这次演示中,Mark 和 Barret 多次打断了ChatGPT的叙述,并要求它以不同的语调来讲故事。

ChatGPT能够灵活地根据用户的指示调整其语音的音调和情感,展现出从平和的叙述到戏剧化的表达,再到模仿机器人的声音,甚至以歌唱形式来结束故事,这极大地增强了交流的互动性和娱乐性。

第四GPT-4o能够基于“看见”的事物并立刻进行推理

在发布会上,GPT-4o通过手机摄像头,看到了一道写在纸上的数学题,并帮助两位演示者解题:

然后,Barret 在纸上又写了“我爱 ChatGPT”(I love ChatGPT)的字样,她的反应也是相当精彩:

写在最后

如果说过去GPT只能通过文本和人交互,还比较呆板,之前的版本的语音交互还不够流畅、保真,这次GPT-4o的多模态能力极大增强后,AI几乎和人没有什么两样了。

人机可以如此自然地交互,再加上大模型强大的知识储备和推理能力,预示着成千数百的人类岗位,将要被AI抢饭碗。

比如:

家庭不再用为孩子请家教辅导孩子,可以让孩子直接与AI自然地提问,并获得解答;

商家不用再雇人做售前售后客服,直接可以让AI去回答其客户的咨询;

不同语言沟通,也不需要请昂贵的翻译了,直接拿出手机打开GPT,就可以无缝翻译了…

细思极恐啊,同志们。