5月17日,OpenAI公司通过直播展示了其最新的人工智能大型语言模型(LLM)GPT-4o,这家自2020年进入全球聚光灯下的公司,一直在令人惊叹和让人恐慌之间摇摆。
与其前身一样,GPT-4o在大量数据上进行训练,以处理查询、识别模式和提供有用的响应。但GPT-4o与迄今为止其他所有LLM的不同之处,总结在其名称末尾那个不起眼的小写“o”上。
这个“o”代表“omni”,即omnimodal,这意味着GPT-4o可以接受任何文本、图像甚至音频的组合作为输入,并可以产生相同组合的输出。
GPT-4o能够理解人类语音并以同样的方式回应,而且不是像虚拟助手那样生硬的问答方式。它以惊人的流畅性和保真度进行交流,以与人类相同的快速节奏互动,并将支持超过50种不同的语言。
GPT-4o的多模态能力确实令人惊叹,研究人员展示了GPT-4o的新技能,它根据简单的语音提示为使用者提供健康建议。
恐慌方面来自于它表明GPT-4o不仅仅是一个工具——它是一个有性格的工具。在对话中,GPT-4o会自发地进行社交互动,讲笑话并笑,有时甚至笑自己的笑话;它会称赞用户的容貌;甚至似乎在调情,在研究人员对它表示赞美时,它会害羞地说:“哦,别这样,你让我脸红了!”
媒体观察家们立即爆发了一阵焦虑、不祥和嘲笑的嘈杂声。彭博社专栏作家Parmy Olson在一篇题为“让ChatGPT‘性感’可能对人类没有好结果”的评论文章中警告说,GPT的新个性可能会导致“脆弱的人[对其]产生不健康的依恋”,对他们的“精神健康”产生“潜在的影响”。
商业内幕指出,GPT的个性“让一些人感到不舒服”。而《每日秀》节目直接指出了为什么这个计算机生成的卖弄风情的女人可能是个问题,高级记者Desi Lydic调侃说“ChatGPT正在来找你的男人”,同时指出该应用的“贪婪机器人宝宝声音”显然是“为了满足男人的自尊心……她就像,‘我拥有世界上所有的信息,但我什么都不知道!教教我,爸爸!’”
根据OpenAI的说法,GPT-4o的主要目标是实现“更自然的人机交互”。GPT的前一版本允许使用“语音模式”进行语音交互,但这些原始模型无法从背景噪音中提取有意义的对话,无法检测语调,最重要的是,无法读取或表达情感。
OpenAI首席执行官Sam Altman认为,GPT-4o是“直观上不同的”,并且以一种“感觉像电影中的AI;对我而言,它是真实的,这仍然有点令人惊讶。