来自 Wiki
OpenAI 是一家美国人工智能(AI)研究实验室,由非营利性 OpenAI Incorporated(OpenAI Inc.)及其营利性子公司 OpenAI Limited Partnership(OpenAI LP)组成。OpenAI 进行 AI 研究的目的是促进和开发友好的 AI。OpenAI 系统运行在世界上第五强大的超级计算机上。该组织于 2015 年由 Sam Altman、Reid Hoffman 在旧金山成立,杰西卡·利文斯顿(Jessica Livingston)、埃隆·马斯克(Elon Musk)、伊利亚·萨茨克维尔(Ilya Sutskever)、彼得·泰尔(Peter Thiel)等人共同认捐了 10 亿美元。马斯克于 2018 年辞去董事会职务,但仍是捐助者。微软在 2019 年向 OpenAI LP 提供了 10 亿美元的投资,并于 2023 年 1 月向其提供了第二笔多年期投资,据报道为 100 亿美元。
2020.06,OpenAI 宣布了一个多功能 API,据称“用于访问 OpenAI 开发的新 AI 模型”,让开发人员调用它来执行“任何英语 AI 任务”。
参数数量:1.2 亿,训练数据:BookCorpus 是一个包含 7000 本未出版书籍的语料库,总大小为 4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。
基于转换器的生成式预训练模型(英语:Generative pre-trained transformers, 简称:GPT)是一种延伸自转换器架构(Transformer)的自然语言生成模型。它可以进行微调以完成各种自然语言处理任务,例如文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预测文章中下一个单词,这为模型在具有限量的任务特定数据的下游任务中表现良好提供了坚实的基础。
关于 GPT 的原始论文(Improving Language Understanding by Generative Pre-Training)由 Alec Radford 及其同事撰写,并于 2018.06.11 以预印本形式发表在 OpenAI 的网站上。它展示了语言的生成模型如何能够通过对具有长段连续文本的多样化语料库进行预训练来获取世界知识并处理远程依赖关系。
参数数量:15 亿,训练数据 WebText:一个包含八百万个文档的语料库,总大小为 40 GB。这些文本是从 Reddit 上投票最高的 4,500 万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。
生成式预训练变换模型 2(英语:Generative Pre-trained Transformer 2,简称:GPT-2)是 OpenAI 于 2019.02 创建的开源人工智能。GPT-2 能够翻译文本、回答问题、总结段落,并生成文本输出。虽然其输出内容有时与人类相似,但在生成长段落时输出内容可能会变得重复或无意义。GPT-2 是一个通用学习器,没有经过专门训练来执行任何特定的任务,并且是作为 OpenAI 2018 GPT 模型的“直接扩展”而创建的,其参数数量和训练数据集的大小均增加了十倍。
一些专家对 GPT-2 构成重大威胁表示怀疑。艾伦人工智能研究所(Allen Institute for Artificial Intelligence)用一种检测“假新闻”的工具回应了 GPT-2(Could ‘fake text’ be the next global political threat?)。其他研究人员,如杰里米霍华德,警告说“用听起来合理、上下文适当的散文完全填满推特、电子邮件和网络的技术,这将淹没所有其他言论并且无法过滤”。2019.11,OpenAI 发布了完整版的 GPT-2 语言模型。
参数数量:1750 亿,训练数据:一个总大小为 570 GB 的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料 Books1 和 Books2。
生成型预训练变换模型 3 (英语:Generative Pre-trained Transformer 3,简称:GPT-3)是一个自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言。GPT-3 由 OpenAI 训练与开发,模型设计基于谷歌开发的 Transformer 模型。GPT-3 的神经网络包含 1750 亿个参数,需要 800GB 来存储, 为有史以来参数最多的神经网络模型。该模型在许多任务上展示了强大的零样本和少样本的能力。
OpenAI 于 2020.05 发表 GPT-3 的论文(Language models are few-shot learners),在次月为少量公司与开发人团释出应用程序界面的测试版。微软在 2020.09.22 宣布取得了 GPT-3 的独家授权。
2022.03.15,OpenAI 在其 API 中提供了具有编辑和插入功能的新版本 GPT-3 和 Codex,名称为 “text-davinci-003” 和“code-davinci-002”。这些模型被描述为比以前的版本更强大,并且接受了截至 2021.06 的数据训练。2022.11.30,OpenAI 开始将这些模型称为 “GPT-3.5” 系列,并发布了 ChatGPT,它是从 GPT-3.5 系列中的一个模型进行微调的。
Generative Pre-trained Transformer 4 (GPT-4) 是由 OpenAI 创建的未发布的神经网络。 据《纽约时报》报道,它“传言将于 2023 年面世”;Vox 声称其他网站曾表示:据传它优于 OpenAI 此前发布的 GPT-3 和 GPT-3.5。The Verge 还援引谣言称,它将大幅增加 GPT-3 的参数数量(从 1750 亿增加到 100 万亿),OpenAI 首席执行官 Sam Altman 将其描述为“彻头彻尾的胡说八道”。
聊天生成型预训练变换模型(英文:Chat Generative Pre-trained Transformer,简称:ChatGPT),是由 OpenAI 开发的一个人工智能聊天机器人程序,于 2022.11 推出。该程序使用基于 GPT-3.5 架构的大型语言模型并通过强化学习进行训练。 ChatGPT 目前仍以文字方式交互,而除了可以通过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT 可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT 可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。在推广期间,所有人可以免费注册,并在登录后免费使用 ChatGPT 实现与 AI 机器人对话。
ChatGPT 可以写出相似于真人程度的文章,并因其在许多知识领域给出详细的回答和清晰的答案而迅速获得关注,证明了从前认为不会被 AI 取代的知识型工作它也足以胜任,对于金融与白领人力市场的冲击相当大,但其事实准确性参差不齐被认为是一重大缺陷,其基于意识形态的模型训练结果并被认为需要小心地校正。ChatGPT 于 2022.11 发布后,OpenAI 估值已涨至 290 亿美元。上线两个月后,用户数量达到 1 亿。
ChatGPT Plus 是一项每月 20 美元的订阅服务,允许用户在高峰时段访问 ChatGPT,提供更快的响应时间,并让用户提前访问新功能。
Transformer 模型(直译为“变换器”)是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。
与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
Transformer 模型于 2017 年由谷歌大脑的一个团队推出,现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。
Codex 于 2021 年年中宣布,是 GPT-3 的后代,它还接受了来自 5400 万个 GitHub 存储库代码的训练,并且是为代码自动完成工具 GitHub Copilot 提供支持的人工智能。2021.08,一个 API 以私人测试版的形式发布。根据 OpenAI 的说法,该模型能够使用十几种编程语言创建工作代码,最有效的是 Python。
OpenAI open-sources Whisper, a multilingual speech recognition system
Whisper 于 2022 年发布,是一种通用语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
MuseNet 是一个深度神经网络,可以用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村音乐到莫扎特再到甲壳虫乐队的风格。MuseNet 并未根据我们对音乐的理解进行明确编程,而是通过学习预测数十万个 MIDI 文件中的下一个标记来发现和声、节奏和风格的模式。MuseNet 使用与 GPT-2 相同的通用无监督技术,GPT-2 是一种经过训练以预测序列中的下一个标记(无论是音频还是文本)的大规模变换器模型。
OpenAI 显微镜,它是八种视觉“模型生物”的每个重要层和神经元的可视化集合,通常在可解释性方面进行研究。显微镜使分析这些神经网络内部形成的特征变得更加容易,我们希望它能在我们理解这些复杂系统的过程中对研究社区有所帮助。
DALL-E 于 2021 年发布,是一种 Transformer 模型,可根据文本描述创建图像。
同样在 2021 年发布的 CLIP 反其道而行之:它为给定图像创建描述。DALL-E 使用 GPT-3 的 120 亿参数版本来解释自然语言输入(形状像五边形的绿色皮革钱包)并生成相应的图片。它可以创建真实物体的图像(带有蓝色草莓图像的彩色玻璃窗)以及现实中不存在的物体(具有豪猪纹理的立方体)。
查看原文:
https://mp.weixin.qq.com/s/_ovmBsJ7EQr_k4JnSKtuLw