过去一年,在 GPT-3 基础上开发的 DALL-E2(根据一句话生成图片)和在 GPT-3.5 基础上开发的对话机器人 chatGPT(根据提问给出相对可靠的答案,比如写代码、剧本等),展现出了 OpenAI 开发的 GPT 系列模型的能力。
OpenAI 将要发布的 GPT-4 成了人工智能领域最受期待的模型。虽然 OpenAI 一直没有释放消息,但社交媒体上关于它的信息越来越多。比如这两天在社交媒体上被广泛转发的 GPT-4 将会有 100 万亿参数的截图。
这个消息源头是一个与 OpenAI 工程师有接触的芯片创业者。他在 2021 年 8 月接受《连线》杂志采访时提到 GPT-4 将包含大约 100 万亿个参数。
所谓 “参数” 通常用来形容一个模型的大小,是科学家训练模型时自动从海量数据中提炼的 “规律和特征”,等到新的数据输入模型后,它们决定输出什么样的结果。通常训练模型使用的数据越多,模型的参数就会越多。
比如 OpenAI 在 2020 年推出的 GPT-3 有 1750 亿个参数,几乎吞掉了互联网上大多数英文文本,从各种网页、新闻、食谱、图书到程序代码等,整个英文维基百科,只占它训练数据整体的 0.6%。GPT-3 也具备了超过其他人工智能模型的能力,只需要简单调优训练,就可以处理大多数文本信息,解决特定的问题,比如翻译、对话、阅读理解、续写内容、补充代码等。
GPT-3 发挥的作用和可能的潜力,引发公司和机构争相入场,推着单个模型的参数破万亿。如果 GPT-4 能有 100 万亿个参数,将会再次刷新纪录。许多人相信,百万亿参数的 GPT-4 会更强,毕竟基于 GPT-3.5 的 chatGPT 已经让人惊叹 “Google 搜索完蛋了”,并确实引起 Google 警惕。
不过 OpenAI 的首席执行官山姆·阿尔特曼(Sam Altman)在 2021 年 9 月一场活动中否认了关于 GPT-4 参数的信息。他说与普遍看法相反,GPT-4(参数)不会比 GPT-3 多,但会使用更多的计算资源,充分利用小模型的优势。现在越来越多的研究指出,更大的模型不一定会有更好的效果。
阿尔特曼还提到 GPT-4 将会更关注写代码的能力。OpenAI 在 2020 年授权微软使用 GPT-3 模型开发编程辅助工具 Github Copilot,可以根据开发者的部分代码自动补齐剩下的,2022 年 8 月开始收费。
现在距离这些 GPT-4 的信息已经过去一年半,OpenAI 是否调整了开发 GPT-4 的思路还不清楚。但可以确定的是 GPT-4 已经在路上了。(贺乾明)