揭秘ChatGPT：一个领先的聊天机器人技术

发表时间: 2024-06-20 12:12

#长文创作激励计划#

2022年11月，OpenAI推出了人工智能聊天机器人：ChatGPT。该应用发布后，很快就成为学术界、工业界、商业界、产业界...方面关注的焦点，我们开始广泛讨论、研究及操作应用ChatGPT，那么究竟什么是ChatGPT呢？

ChatGPT最直观的感知就是：它是一个“聪明”的聊天机器人（工具）；除了聊天工具，它实质是一个人工智能模型，也是一种自然语言处理工具，英文全称为：“Chat Generative Pre-trained Transformer”。

ChatGPT的本质是：通过大量的文本数据训练，ChatGPT“学会”了理解和生成人类的语言。我们可以通过聊天（问答）的方式，与它展开如科学、哲学、艺术、美术、体育、音乐、电影等等多方面、深层次的相关话题交流。我们也可以向它提出请求，比如让它对对联、编一个笑话、画一幅画等等。ChatGPT能够回应我们的任何问题或请求，并且能够给出一个相对完整、准确的回复。

需要特别注意的是，通常我们说到ChatGPT时，可能指的就是2022年11月发布的那个最初引起全世界各界关注的GPT-3.5版本。而OpenAI公司已经在2023年3月发布了更“聪明”、更强大的GPT-4，所以我们在谈ChatGPT时，虽然这两个版本的性质和用法是一样的，但在具体的功能和效果方面会有差异。

说到ChatGPT，我们首先要理解和认知“语言模型”。语言是我们人类最重要的沟通工具。我们每天都在使用语言（不仅仅指说话）——无论是聊天、阅读、写作，还是思考。而通过让计算机进行学习、理解和使用语言，这样的过程和方式，我们称之为“语言模型”。而ChatGPT就是这样一种语言模型（也就是语言模型可以有很多，ChatGPT只是其中之一）。

那么，语言模型究竟是什么呢？看这样说明是否可以理解：它是一种预测下一个token（自然语言处理的单位，可以简单地理解为词）的统计模型。举一个例子：如果我们输入“我爱”，语言模型会预测“你”是接下来很有可能出现的词。因为根据它训练过（统计出）的大量数据资料显示，“我爱你”是一个很常见的短语，在数据资料中出现“我爱你”的短语频率远高于“我爱笑”、“我爱吃”、“我爱说”等等其他短语。

再比如说，我们输入“生日快”，语言模型会“精准地”预测出“乐”这个词。因为语言模型在训练过程中，在前面这个短语出现的情况下，后面这个词出现的概率几乎是百分之百。

所以，最简单的理解，语言模型就是会根据我们输入词的序列排布情况（短语），结合它“见过”的所有词序列组合（长句），再根据这样的词序列组合出现的频率，来预测下一个最有可能出现的词是哪个词。根据这样的语言样本进行概率统计解析，就是语言模型。

那么，语言模型长什么样子呢？为了帮助理解，这里简单打个比方，我们可以想象有这样一张巨大的表格，这张表格列出了所有词的序列组合以及这个词序列组合出现的频率。当我们输出某个词序列时，语言模型会在这张表格中找出与之最匹配的词序列，并给出（称之为预测）其后面最常见的那个词。

当然，真实的语言模型远比表格复杂得多。它使用“神经网络”和“深度学习”算法来构建这样的“表格”，涉及成千上百万个词及其词序列，还考虑了上下文语义等要素。但本质上，语言模型它所做的事情就是预测下一个最有可能出现的词。

所以，我们用计算机（机器）来“预测下一个词”的行为或动作，说起来有点无聊、无趣、无意义，可结果却产生了ChatGPT这个划时代的人工智能产品。

严格来说，ChatGPT属于语言模型中的大语言模型（Large Language Model，LLM）。

中文名称	英文名称	说明
语言模型	Language Model	对词序列的生成可能性进行建模，以预测下一个token（自然语言处理单位）的概率
统计语言模型	Statistical Language Model	自然语言模型的基础模型，从概率统计角度出发，解决自然语言上下文相关的特性，如根据最近的上下文预测下一个词
神经语言模型	Neural Language Model	通过神经网络（如递归神经网络RNN）表征词序列的概率
预训练语言模型	Pre-trained Language Model	模型参数不再是随机初始化的，而是通过一些任务进行了预先训练，得到一套模型参数，通过这些参数再对模型进行训练
大语言模型	Large Language Model	在预训练语言模型的研究过程中，研究人员发现增加模型大上和数据量可以提高下游任务的完成质量，并且随着规模增大，模型展现出了一些让人意想不到的能力（如ChatGPT）

表：语言模型与说明

理解和认知好“语言模型”，我们再来进一步了解ChatGPT。“Chat”（聊天）非常好理解，我们把焦点放在“GPT”这三个字母上。GPT是Generative Pre-trained Transformer的缩写，中文是“生成式预训练变换模型”。

Generative（生成式）

GPT是一种生成式人工智能。它通过计算海量数据中的概论和分布，最终可以从分布中生成新的数据。所以，GPT可以用于各种任务，如写作、翻译、回答问题等等。

Pre-trained（预训练）

Pre-trained即预训练，指的是GPT这个模型的训练方式。预训练是指在训练特定任务的模型之前，先在大量的数据上进行训练，以学习一些基础的、通用的特征或模式。用于预训练的数据通常是未标注过的，这意味着模型需要自我发现数据中的规律和结构，而不是依赖已标注的信息进行学习。使用无标注数据的训练方式通常被称为“无监督学习”。

这个预训练过程使得GPT能够学习到语言的一般模式和结构。然后，GPT可以通过在有标签的数据上进行微调，来适应各种任务场景。

Transformer（变换模型）

Transformer这个词，直译成中文可以是“改变者”、“变换器”，在GPT这个语境中，我们理解为变换模型，这是GPT的基础架构。Transformer是机器学习算法中的一种深度学习模型，它使用自注意力机制来处理序列数据。这使得GPT能够有效地处理长文本，并捕捉到文本中的复杂模式。

而自注意力机制（self-Attention）又是 Transformer的核心组成部分。这种机制的主要逻辑是在处理序列的每个元素时，不仅考虑该元素本身，还考虑与其相关的其他元素。

也就是说，Transformer可以为语言模型提供一种“找到目标”的能力，它可以对输入的文本中的每个词进行多维度、精细化的权重分配，然后进行权重比较，从而帮助模型理解文本中各词之间的依赖和关联关系，使其不再机械化、固定地对待每一个词，而是可以像人类一样有选择性地关注与理解信息。

所以，当我们说“GPT”时，其实指的是一种能够生成新的连贯文本（可以回答问题、写作、聊天等），在高质量的海量数据上进行预训练（论文、书籍、文献等，天文地理，知识百科），并使用Transformer架构（能够捕捉文本中各词之间的依赖和关联关系）的深度学习模型。

综上，我们回答“什么是ChatGPT”，它是一种基于人工智能的自然语言处理（NLP）模型；由OpenAI开发，使用深度学习技术，应用变换器（Transformer）架构，来理解和生成人类语言。

以下是近年来ChatGPT相关的重要节点：

2017年，谷歌发布了关于Transformer的论文；

2018年，OpenAI发布了GPT-1；

2020年，OpenAI发布了GPT-3；

此后，OpenAI在GPT-3的基础上进行人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）和监督精调（Supervised Fine-tuning）；经数次迭代之后，ChatGPT(GPT-3.5）横空出世，于2022年11月发布，成为全世界的焦点。

2023年3月，OpenAI发布GPT-4。

ChatGPT是一个强大、灵活且聪明的人工智能助手，我们可以通过对话式的聊天与其沟通。它有能力回答我们的各种问题，协助我们提炼、写作与思考。然而，如果仅将ChatGPT看作一个聊天机器人，那就远远低估了它的能力，其实际的应用潜力远超我们的想象。

随着ChatGPT等大语言模型能力的提升和应用的拓展，它们将会在不久的将来，颠覆我们日当前日常工作、学习、生活的流程和方式。这不是科幻，而是正在逐步发生的现实改变。

揭秘ChatGPT：一个领先的聊天机器人技术

热门阅读

推荐阅读