OpenAI发布震撼全新大模型o1:推理能力更强,价格更高!

发表时间: 2024-09-13 09:12

传说中的“草莓”现身,9月12日晚间,OpenAI正式对外发布一款名为o1的新模型,这款模型为该公司下一代 “推理” 模型中的第一个,o为“Orion(猎户座)”,这款模型可以比人类更快地回答更复杂的问题。

与以前的模型相比,在编写代码和解决多步骤问题方面做得更好。但它也比此前发布的GPT-4o更贵,回答问题也更慢。OpenAI强调o1的这次发布为 “预览版”,还只是初始状态。此次同时发布的还有更小、更便宜的版本o1-mini 。对OpenAI来说,o1 代表着向其更广泛的类人人工智能目标迈出的一步。

ChatGPT Plus和团队用户即日起便可以访问o1预览版和o1-mini,而企业和教育用户将在下周初获得访问权限。OpenAI表示,它计划让ChatGPT的所有免费用户都能访问o1-mini,但尚未确定发布日期。

对开发者来说,访问o1的成本比之前要高出很多:通过API使用o1预览版,输入每百万token要收费15美元,输出每百万收费60美元。相比之下,GPT-4o的百万token输入收费只有5美元,输出为15美元。

OpenAI 的研究负责人杰里・特沃雷克(Jerry Tworek)向媒体透露,o1 “是使用一种全新的优化算法和专门为其定制的新训练数据集进行训练的”,它设置了奖励和惩罚机制,通过强化学习的技术训练模型自行解决问题,它利用类似人类通过逐步解决问题方式的“思维链”处理问题。这种新的训练方法,使得模型更加准确。“我们注意到这个模型的幻觉更少了,” 特沃雷克说,但这个问题仍然存在,“我们不能说我们解决了幻觉问题。”

根据OpenAI的说法,这个新模型与GPT-4o的主要区别在于它能够比其前身更好地解决复杂问题,如编码和数学,同时还能解释其推理过程。OpenAI还对o1进行了国际数学奥林匹克资格考试的测试,虽然 GPT-4o只正确解决了13%的问题,但o1得分达到了83%。

在被称为Codeforces竞赛的在线编程比赛中,这个新模型达到了参与者的89%的百分位,OpenAI声称这个模型的下一次更新将在具有挑战性的物理、化学和生物学基准任务中表现得 “类似于博士生”。

虽然在数学和代码方面发挥更出色,但o1在很多方面不如GPT-4o,包括在关于世界的事实知识方面表现不佳,以及没有浏览网页或处理文件和图像的能力。不过,OpenAI认为它代表了一种全新的能力类别,被命名为o1是为了表示 “将计数器重置回 1”。