走近智算时代:深度解读OpenAI GPT-4o

发表时间: 2024-08-05 14:34

OpenAI在2024年春季发布会上发布了新的旗舰模型GPT-4o,这是一个多模态的大模型,可以对音频、视频和文本进行实时的推理。

我们先从其官网来了解一下这个产品,官网提供的信息并不多,只有贡献值、在ChatGPT中试用、在Playground中试用、观看现场演示4个板块。

首先是使用效果的演示,GPT-4o在自然人机交互方面取得了很大的进步,可以同时接受文本、语音和视频的输入,并输出文本、语音和视频的组合,实时性方面有很大的提升,能做到实时性的交互对话。这方面官网提供了很多媒体人的评测视频,具体内容大家可以直接去官网查看。

接下来的能力探索模块,展示了很多有趣的能力,包括文生图,文生视频。而且是根据用户提示词,一步一步的渐进式的生成,生成内容的和提示词的契合度非常的高,对生成内容的控制力非常的强。比如先根据提示生成一张机器人使用打字机的图,然后渐进式的控制打印的内容,最后生成一张机器人用手撕开包含打印内容的纸的图。

接着我们来回顾下GPT的相关技术,从GPT1到4,模型参数从1.17亿增长到1.76万亿,参数量增加了1万多倍,效果也有了明显的提升,但和参数的增长倍数相比,模型的效果提升还是很有限的。GPT4没有公布它的网络结构,我们根据公开资料和自己的经验,对模型结构做了一个猜测,这里就不详细展开了。

我们再回顾下OpenAI在GPT4发布的AI对话、AI助手工具。

要完成一轮语音对话,需要使用GPT4中的三个模型,先使用语音转文字模型Whisper把用户语音转换为文字,再把文本输入ChatGPT模型生成文本回答,最后通过文字转语音模型VALL-E以语音的形式完成语音回复。

这里使用了三个模型串联的方式,它并不是一个端到端的整体流程,由于每个模型的处理都需要时间,模型间还需要调度,所以整个过程非常的慢。

下面介绍下GPT-4o的技术原理,由于OpenAI官网对GPT-4o的技术原理并没有相关的介绍和披露,也尚未发表相关的论文,这里我根据自己对技术的把握,对其技术理解进行了一个分析。

综合各种资料和我自己的理解,GPT-4o的整体架构有四部分组成,分别是Data Engining数据工程、SuperAligning超级对齐、Transformer Decoder架构模型和Condition条件输出。

首先是数据工程部分,对输入的文本进行Tokenizer、对语音和视频分别进行Encoder操作。

接着通过超级对齐,对文本、语音和视频的处理结构进行Token对齐,作为Transformer结构的长序列输入,因为只有对齐后的Token,才能作为一个多模块模型的输入。

然后对齐后的Token输入到GPT-4o模型,根据OpenAI的技术路线和Scaling Law哲学,我们认为GPT-4o模型是一个纯粹的Transformer Decoder架构模型,这样更方便使用千卡、万卡规模集群进行并行训练。

最后是输出模块,模型输出应该是统一的向量,再转换为文本、语音或者图片,文本和语音应该会有对齐,以保持同声传译。

最后我们做一个简单的技术总结,分为3个部分。

第一部分是多模态的数据工程。GPT-4o通过对文本、语音和视频的Token进行压缩,减少Token量,让大模型的输入序列Token结合多模态统一为长序列。通过词表增加大和Token减少,进一步增强大模型的编码率。还有借鉴SOAR经验,实现视频的时空序列的极致编码率。

第二部分是模型训练。我们认为主要是以弱监督或自监督训练为主,否者这么多的数据进行人工标注,工作量太大,也很难进行多模态对齐的统一训练。

第三部分是模型结构与训练。GPT-4o通过超级对齐对文本、音频和视频三种模态进行对齐。模型技术路线还是以大语言模型能力为基础,加入多模态维度的Token形成一个多模态的统一大模型。