Open AI的o1模型：揭秘其强大之处

发表时间: 2024-09-13 17:29

21世纪经济报道见习记者郭聪聪实习生刘欣北京报道

9月13日凌晨，OpenAI在没有任何预告的情况下，扔出了o1-preview模型上线的重磅炸弹。

OpenAI对该模型介绍道，“ o1模型是一个新的大型语言模型，经过强化学习（reinforcement learning，RL）训练，可以执行复杂的推理。o1模型在回应用户之前会产生长串的内部思维链（chain of thought）。”这种内部思维链，类似于人类通过逐步推理来解决问题。

对此OpenAI称，这是一个重要的进展，代表了人工智能能力的新水平。

之前就有人猜测这次发布的模型可能会被命名为GPT-5，但o1系列的创新性令OpenAI不惜舍弃GPT系列命名，以“Orion（猎户座）”重新命名了一个全新的o系列，可以说是新开一页族谱了。OpenAI称该命名存有“将‘计数器’重置为1”的寓意。

OpenAI 的研究负责人Jerry Tworek 表示，相较于GPT，o1模型采用了全新的优化算法和专门为其定制的训练数据集进行训练，它能够比人类更快地回答更复杂的问题。

那么o1系列模型到底有多强呢？

OpenAI官方发布了模型的对比测试，作为比较参照数值的是今年5月上新的GPT-4o模型与人类专家水平。

在组图对比成绩中可以直观感受到，o1模型的绝对压制力。OpenAI官网直言，结果表明o1模型在大多数推理任务中明显优于GPT-4o。

无论是在国际数学奥林匹克的选拔考试测试（AIME）、代码竞赛还是博士及科学问题的对比测试中，o1模型都压倒式的碾压目前的GPT-4o模型。在数学竞赛与代码竞赛的正确率上，还未发布的o1正式版是GPT-4o模型的6-8倍。而在博士级科学推理问题(GPQA Diamond)测试中，o1模型也表现出了接近甚至超越人类顶尖水平的实力。

比AI更恐怖的是，是AI可以思考。

之所以产生这种质变的正确率，是因为o1系列模型加入了RL技术，逐渐生成“思维链”——这一类似于人类推理的思考方式。该技术通过奖励和惩罚来教导系统，令系统学会了识别和纠正自己的错误，同时也学会了将复杂的步骤分解为更简单的步骤。

OpenAI这次划时代的模型创新带来了人工智能从大语言模型的Scaling Law到新范式Self-play RL的跨时代转变，这或是对于AGI时代发起的一次冲锋。

自2018年6月GPT-1面世以来，Open AI一直优化拓展GPT系列模型，至2024年5月已迭代到了GPT-4o，期间还推出了专门设计用于对话生成任务ChatGPT。

在GPT系列模型一路迭代的过程中，目光更多聚焦精进模型参数规模来提升性能，以大语言模型训练模型（Scaling Law）进行多任务学习，最终在GPT-4o中实现了文本、音频和图像的任何组合作为输入的多模态大模型。

但此次推出的o1模型是OpenAI的革新之举，代表了一种全新的推理能力。

首先是RL技术的差异，想当年，AlphaGo战胜人类棋手，背后就是用的是RL算法。OpenAI研究员Jason Wei表示，o1模型是一个在给出最终答案之前进行思考的模型。通过RL技术训练模型，能够更好地执行链式思考。

除了训练方法上的差别外，不同于GPT-4o的多任务能力，o1 模型在处理复杂的编程和数学问题时具有独特优势，并能解释其推理过程。在处理复杂的推理任务的评测中，o1模型已证明了自己的绝对实力。

同时为满足不同需求，OpenAI推出了o1-preview与o1-mini两个o1模型。o1-preview注重深度思考与科学推理，每周速率限制为 30 条消息。o1-mini是一种经济高效的推理模型，非常擅长STEM，尤其是数学和编码，用于需要推理但不需要广泛世界知识的应用场景，每周速率限制为 50 条。

作为o1的早期模型，o1-preview尚为纯文字版，还不具备ChatGPT处理文本、音频和图像组合输入的能力。

目前，o1模型已经逐步向所有ChatGPT Plus和 Team用户开放，后续OpenAI 将计划为所有ChatGPT免费用户提供 o1-mini 访问权限。

更多内容请下载21财经APP

Open AI的o1模型：揭秘其强大之处

热门阅读

推荐阅读