ChatGPT来袭!产品经理必备AI知识解读

发表时间: 2024-09-04 15:25

本文旨在为产品经理们解释ChatGPT背后的原理及其应用,帮助理解其对现代对话系统发展的影响。通过简化技术性语言,我们将深入探讨ChatGPT如何利用预训练模型、生成式任务和转换器架构来实现高效互动。

本文为产品经理提供一些更易懂的chatGPT含义解释

ChatGPT:Generative Pre-Training Transformer

01 G:Generative 生成式

生成式,在这里指的是生成模型。

1. 在人工智能领域,与生成模型并列存在的还有

  • 判别模型(如逻辑回归、支持向量机、决策树和神经网络)这类模型用于数据的类别判断,例如分类问题
  • 聚类模型(如kmeans,层次聚类,DBSCAN)用于发现数据的自然分组
  • 降维模型(如PCA,LDA)用户减少数据维度,保留重要信息

除此之外,还有关联规则学习、回归、集成学习、深度学习、强化学习等模型,这些模型和生成模型一样,都是人工智能领域的重要组成部分,它们在不同的任务和应用中发挥着关键作用。

2. 生成式模型的分类

生成式模型是一类能够生成新数据的模型,这些数据在某种程度上与训练模型相似,但是是独一无二的,它是一个广泛的类别,其中有几个小分支:包括使用对抗网络的图像生成模型(如DALLE),使用扩散模型的图像生成模型(如Stable Diffusion和MidJourney),以及使用转换器架构的文本生成模型(如ChatGPT)。

生成式模型努力解决的问题,就是给定一些字,预测如果是人类会写什么字。

3. BERT时代的生成式

想象你是一位老师教一个学生学习语言。在早期BERT的训练过程中,可以把它想象成一种特殊的教学方法:

  • 遮住单词:你给学生一本书,但是书中有些单词被你用纸片遮住了。这些遮住的单词就像是BERT中的[MASK]标记。
  • 猜单词游戏:你让学生猜这些被遮住的单词是什么。学生需要根据句子中其他可见的单词来做出猜测
  • 反馈循环:如果学生猜对了,你就给予表扬,这就像是模型在预测准确时得到正面的反馈。如果猜错了,你就纠正他,并解释为什么错了,这就像是模型在预测错误时进行调整。
  • 重复练习:你和学生一遍又一遍地玩这个猜单词游戏,每次都用新的句子,学生逐渐学会了如何根据上下文来猜测单词。
  • 不断进步:经过大量的练习(可能是上百万次),学生变得越来越擅长这个游戏,猜对单词的次数也越来越多。

4. chatGPT时代的生成式

现在,让我们来谈谈ChatGPT。它就像是BERT的升级版,不仅能够玩猜单词的游戏,还能够理解句子的意思(上下文)和意图(意思):

  • 理解上下文:就像你不仅教学生单词,还教他们如何理解整个句子的意思,ChatGPT也能够理解对话的上下文。
  • 理解意图:你还会教学生如何理解别人说话的意图,比如别人是在提问、讲故事还是开玩笑。ChatGPT也能够理解用户的意图,并据此生成合适的回应。
  • 创造性回应:最后,ChatGPT不仅仅是猜测遮住的单词,它还能够创造全新的句子和故事,就像学生不仅能够猜出你遮住的单词,还能够自己写一篇作文一样。

BERT像是在学习如何理解语言和猜测单词,而ChatGPT则像是在学习如何使用语言来进行交流和创造。

02 P:Pre-Training 预训练

以前很多的人工智能模型都是为了一个目标训练的,这些模型就像针对一项特定任务训练的专家。比如:

  • 图像识别:你给模型看很多猫的图片,它就学会识别图片中是否有猫。
  • 语音识别:模型通过分析大量的语音数据,学会将语音转换成文字。
  • 棋类游戏:比如训练一个模型来玩围棋,它会学习特定的策略和走法。

这些模型通常只擅长它们被训练做的任务,如果任务稍微变化,它们可能就无法胜任了。

1. 预训练模型(Pre-Training Models)

Pre-Training 模型不是为了特定的目标训练,而是预先训练一个通用的模型。如果我有特定的需求,我可以在这个基础上进行第二次训练,基于原来已经预训练的模型,进行微调(Fine- Tuning)。

这些预训练模型则更像是多面手,它们不是为某个特定任务训练的,而是通过大量数据学习语言、图像或其他类型的通用特征。比如:

  • BERT:通过分析大量的文本数据,学习语言的通用模式和关系,而不是专门学习如何回答问题或翻译语言。
  • GPT(包括ChatGPT):也是通过大量的文本数据进行预训练,学习如何生成连贯、有意义的文本。

2. 预训练的好处

  • 数据效率:对于特定任务,我们可能没有足够的数据来训练一个专用模型。预训练模型可以用更少的特定数据进行微调。
  • 迁移学习:预训练模型可以将其在大量数据上学到的知识迁移到新任务上,这通常能提高模型的性能。
  • 计算效率:从头开始训练一个大型模型可能需要大量的计算资源。使用预训练模型可以节省这些资源,因为我们只需要对模型进行微调,而不是从头开始训练。

3. 微调(Fine-Tuning)

一旦我们有一个预训练模型,就可以根据特定的需求对它进行微调。这个过程就像是:

  • 基础训练:首先,模型在大量数据上进行预训练,学习通用的知识。
  • 专业训练:然后,我们根据特定的任务(比如识别猫的图片),用相对较少的数据对模型进行微调。这个过程就像是让一个已经受过通用教育的人去接受专业培训,使其成为某个领域的专家。

ChatGPT 的预训练就是给了我们所有人一个预先训练好的模型。这个模型里面语言是强项,它提供的内容无论多么的胡说八道,至少我们必须承认它的行文通畅程度无可挑剔。而回答的内容部分,正是我们需要 fine tuning 的。

03 T:Transformer 转换器

Transformer 是自然语言处理中的一种架构,由于能够有效处理序列数据成为NLP领域的里程碑。该架构在机器翻译、文本摘要、问答系统、文本生成等任务中都取得了显著的成果。

GPT系列模型就是基于转换器架构的,它们通过预训练大量的文本数据,学会了语言的复杂模式,并能够生成连贯、相关的文本。在这中间的过程为:

语言转换器把语言序列作为输入,然后用一个叫做 encoder 的东西变成数字(比如 GPT 就用 1536 个浮点数,也叫 1536 维向量,表示任何的单词,或者句子,段落,篇章等;

然后经过转化,变成一串新的序列;

最后再用 decoder 把它输出。

转换器,是这个自然语言处理的核心。

1. 类比变电器:

  • 输入:家用电源通常需要220伏的交流电。
  • 转换:变电器(变压器)将高压电线中的高电压(例如10000伏)转换为适合家庭使用的低电压(例如220伏)。
  • 输出:安全的家庭用电,可以供电视、冰箱等电器使用。

2. 举例说明

比如输入一句话“我今天吃了苹果,很高兴”

编码器(Encoder):这部分模型将输入的句子转换成一系列数字向量。每个单词都被转换成一个高维空间中的点(比如1024维,其中一个或多个维度的组合表达了苹果「圆」的含义,另外一堆表达了「苹果的红和甜」的含义,还有一大堆共同表达了「你吃到好吃的食物,你的情绪很好」等等属性组合,至于具体哪些表达了这些,不得而知),这个点包含了单词的语义信息。这个过程就像是将电压降低,使其适合处理。

转换:Transformer模型通过自注意力机制处理这些向量,让模型能够理解单词之间的关系和整个句子的含义。这就像是变电器内部的磁场转换,确保电流在不同部件之间有效流动。

解码器(Decoder):在需要生成文本的任务中,解码器会使用编码器提供的数字向量来生成响应或翻译。例如,如果任务是将句子翻译成英文,解码器可能会输出“I ate an apple today and I was very happy.”

最终的文本输出,可以是翻译、回答或其他任何基于输入文本的生成内容。

04 GPT:生成式预训练转化器

一个预先训练好的,用生成的方式,把输入文字转化成输出文字的翻译,除了这个以外的各种能力和各种定义,大多数是这个翻译官的应用场景而不是它本身。

chatGPT

我们可以结合 OpenAI 的模型命名了解其功能和特性,同时理解OpenAI在自然语言处理领域的发展历程,以及各个模型之间的联系和区别。历史版本包括:

1. GPT-1

2. GPT-2(开源)

  • 继GPT-1之后的进一步发展
  • 特点是能够生成连贯的文本
  • 模型参数较少,但在当时表现出色
  • 已开源,允许研究者和开发者使用和修改

3. GPT-3(生成式)

可以给 prompt(提示词),它负责补全(completion)。但是用于聊天不是很好用,因为本来就不是为聊天这个场景准备的。

  • 显著扩大了模型规模,拥有175B(亿亿)参数。
  • 能够理解和生成自然语言文本。
  • 虽然功能强大,但并非专为聊天场景设计。

4. InstructGPT(听懂指令)

  • 在GPT-3的基础上发展
  • 专注于理解和执行用户的指令
  • 改进了模型对指令的响应能力

5. ChatGPT(对话专用)

  • 基于InstructGPT进一步优化
  • 专为对话场景设计,包括多轮对话
  • 加强了安全和边界设定,以适应聊天环境
  • 可以认为是GPT-3的微调(Fine-Tuning)版本

本文由 @wanee 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。