#长文创作激励计划#
2022年11月,OpenAI推出了人工智能聊天机器人:ChatGPT。该应用发布后,很快就成为学术界、工业界、商业界、产业界...方面关注的焦点,我们开始广泛讨论、研究及操作应用ChatGPT,那么究竟什么是ChatGPT呢?
ChatGPT最直观的感知就是:它是一个“聪明”的聊天机器人(工具);除了聊天工具,它实质是一个人工智能模型,也是一种自然语言处理工具,英文全称为:“Chat Generative Pre-trained Transformer”。
ChatGPT的本质是:通过大量的文本数据训练,ChatGPT“学会”了理解和生成人类的语言。我们可以通过聊天(问答)的方式,与它展开如科学、哲学、艺术、美术、体育、音乐、电影等等多方面、深层次的相关话题交流。我们也可以向它提出请求,比如让它对对联、编一个笑话、画一幅画等等。ChatGPT能够回应我们的任何问题或请求,并且能够给出一个相对完整、准确的回复。
需要特别注意的是,通常我们说到ChatGPT时,可能指的就是2022年11月发布的那个最初引起全世界各界关注的GPT-3.5版本。而OpenAI公司已经在2023年3月发布了更“聪明”、更强大的GPT-4,所以我们在谈ChatGPT时,虽然这两个版本的性质和用法是一样的,但在具体的功能和效果方面会有差异。
说到ChatGPT,我们首先要理解和认知“语言模型”。语言是我们人类最重要的沟通工具。我们每天都在使用语言(不仅仅指说话)——无论是聊天、阅读、写作,还是思考。而通过让计算机进行学习、理解和使用语言,这样的过程和方式,我们称之为“语言模型”。而ChatGPT就是这样一种语言模型(也就是语言模型可以有很多,ChatGPT只是其中之一)。
那么,语言模型究竟是什么呢?看这样说明是否可以理解:它是一种预测下一个token(自然语言处理的单位,可以简单地理解为词)的统计模型。举一个例子:如果我们输入“我爱”,语言模型会预测“你”是接下来很有可能出现的词。因为根据它训练过(统计出)的大量数据资料显示,“我爱你”是一个很常见的短语,在数据资料中出现“我爱你”的短语频率远高于“我爱笑”、“我爱吃”、“我爱说”等等其他短语。
再比如说,我们输入“生日快”,语言模型会“精准地”预测出“乐”这个词。因为语言模型在训练过程中,在前面这个短语出现的情况下,后面这个词出现的概率几乎是百分之百。
所以,最简单的理解,语言模型就是会根据我们输入词的序列排布情况(短语),结合它“见过”的所有词序列组合(长句),再根据这样的词序列组合出现的频率,来预测下一个最有可能出现的词是哪个词。根据这样的语言样本进行概率统计解析,就是语言模型。
那么,语言模型长什么样子呢?为了帮助理解,这里简单打个比方,我们可以想象有这样一张巨大的表格,这张表格列出了所有词的序列组合以及这个词序列组合出现的频率。当我们输出某个词序列时,语言模型会在这张表格中找出与之最匹配的词序列,并给出(称之为预测)其后面最常见的那个词。
当然,真实的语言模型远比表格复杂得多。它使用“神经网络”和“深度学习”算法来构建这样的“表格”,涉及成千上百万个词及其词序列,还考虑了上下文语义等要素。但本质上,语言模型它所做的事情就是预测下一个最有可能出现的词。
所以,我们用计算机(机器)来“预测下一个词”的行为或动作,说起来有点无聊、无趣、无意义,可结果却产生了ChatGPT这个划时代的人工智能产品。
严格来说,ChatGPT属于语言模型中的大语言模型(Large Language Model,LLM)。
中文名称 | 英文名称 | 说明 |
语言模型 | Language Model | 对词序列的生成可能性进行建模,以预测下一个token(自然语言处理单位)的概率 |
统计语言 模型 | Statistical Language Model | 自然语言模型的基础模型,从概率统计角度出发,解决自然语言上下文相关的特性,如根据最近的上下文预测下一个词 |
神经语言 模型 | Neural Language Model | 通过神经网络(如递归神经网络RNN)表征词序列的概率 |
预训练 语言模型 | Pre-trained Language Model | 模型参数不再是随机初始化的,而是通过一些任务进行了预先训练,得到一套模型参数,通过这些参数再对模型进行训练 |
大语言 模型 | Large Language Model | 在预训练语言模型的研究过程中,研究人员发现增加模型大上和数据量可以提高下游任务的完成质量,并且随着规模增大,模型展现出了一些让人意想不到的能力(如ChatGPT) |
表:语言模型与说明
理解和认知好“语言模型”,我们再来进一步了解ChatGPT。“Chat”(聊天)非常好理解,我们把焦点放在“GPT”这三个字母上。GPT是Generative Pre-trained Transformer的缩写,中文是“生成式预训练变换模型”。
Generative(生成式)
GPT是一种生成式人工智能。它通过计算海量数据中的概论和分布,最终可以从分布中生成新的数据。所以,GPT可以用于各种任务,如写作、翻译、回答问题等等。
Pre-trained(预训练)
Pre-trained即预训练,指的是GPT这个模型的训练方式。预训练是指在训练特定任务的模型之前,先在大量的数据上进行训练,以学习一些基础的、通用的特征或模式。用于预训练的数据通常是未标注过的,这意味着模型需要自我发现数据中的规律和结构,而不是依赖已标注的信息进行学习。使用无标注数据的训练方式通常被称为“无监督学习”。
这个预训练过程使得GPT能够学习到语言的一般模式和结构。然后,GPT可以通过在有标签的数据上进行微调,来适应各种任务场景。
Transformer(变换模型)
Transformer这个词,直译成中文可以是“改变者”、“变换器”,在GPT这个语境中,我们理解为变换模型,这是GPT的基础架构。Transformer是机器学习算法中的一种深度学习模型,它使用自注意力机制来处理序列数据。这使得GPT能够有效地处理长文本,并捕捉到文本中的复杂模式。
而自注意力机制(self-Attention)又是 Transformer的核心组成部分。这种机制的主要逻辑是在处理序列的每个元素时,不仅考虑该元素本身,还考虑与其相关的其他元素。
也就是说,Transformer可以为语言模型提供一种“找到目标”的能力,它可以对输入的文本中的每个词进行多维度、精细化的权重分配,然后进行权重比较,从而帮助模型理解文本中各词之间的依赖和关联关系,使其不再机械化、固定地对待每一个词,而是可以像人类一样有选择性地关注与理解信息。
所以,当我们说“GPT”时,其实指的是一种能够生成新的连贯文本(可以回答问题、写作、聊天等),在高质量的海量数据上进行预训练(论文、书籍、文献等,天文地理,知识百科),并使用Transformer架构(能够捕捉文本中各词之间的依赖和关联关系)的深度学习模型。
综上,我们回答“什么是ChatGPT”,它是一种基于人工智能的自然语言处理(NLP)模型;由OpenAI开发,使用深度学习技术,应用变换器(Transformer)架构,来理解和生成人类语言。
以下是近年来ChatGPT相关的重要节点:
2017年,谷歌发布了关于Transformer的论文;
2018年,OpenAI发布了GPT-1;
2020年,OpenAI发布了GPT-3;
此后,OpenAI在GPT-3的基础上进行人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)和监督精调(Supervised Fine-tuning);经数次迭代之后,ChatGPT(GPT-3.5)横空出世,于2022年11月发布,成为全世界的焦点。
2023年3月,OpenAI发布GPT-4。
ChatGPT是一个强大、灵活且聪明的人工智能助手,我们可以通过对话式的聊天与其沟通。它有能力回答我们的各种问题,协助我们提炼、写作与思考。然而,如果仅将ChatGPT看作一个聊天机器人,那就远远低估了它的能力,其实际的应用潜力远超我们的想象。
随着ChatGPT等大语言模型能力的提升和应用的拓展,它们将会在不久的将来,颠覆我们 日当前日常工作、学习、生活的流程和方式。这不是科幻,而是正在逐步发生的现实改变。