Open AI再掀科技热潮:最新模型o1震撼发布

发表时间: 2024-09-14 08:13

以下为视频文稿:

Open AI 在今天凌晨的时候发布了他们的最新模型,叫 o 1。原来传闻这个新模型叫 Strawberry 来着,结果名字不一样了。咱等会儿再来聊聊为啥起这么个名字。简单来说呢,他们觉得这个模型更适合搞复杂任务推理,能解决比以前更难的科学、编程还有数学方面的问题。

按照 open AI 说的呢,从今天开始,GPT plus 用户和 team 用户都能访问 GPT 的这个 o 1 模型。以后免费用户可以用 1 mini 模型。不过我实际去官网看了一下,发现所谓的 o 1 模型还没更新呢。这可太符合 open ai 的风格了,每次发布会都画个大饼,下个承诺,可真正模型来的时间总比说的晚。

AI不只是工具,更是未来的商机,我是弼小侠,关注我带你解读AI商业前景

为啥叫 o 1 呢?因为对 open ai 来说,这个模型在复杂推理任务上有重大进步,代表了人工智能能力的新水平,所以就把技术重置为一了。从这角度看呢,现在 open AI 大概没啥更让人兴奋的像 GBT5、6 之类的新模型了,所以就用一套新的模式、新的规则给模型命名。接下来我带你们看看这个模型到底有啥新能力,技术方面表现咋样。要是你对技术文档感兴趣呢,你就接着看。

要是不感兴趣,想看实际演示,那就看现在的屏幕,跳到对应的 12 个案例内容。好啦,咱开始。首先呢,open AI 在技术文档里提到,在编程问题上,o 1 有巨大领先。在一个 code force 的比赛中能排到 89% 呢。在美国数学奥林匹克竞赛的预赛里,也能排在美国前 500 名。

这听起来可厉害啦。而且在物理、生物学的基准水平上都超过了人类博士的水平。其实很多人都觉得大型语言模型更像个文科生,但我可不这么认为。为啥这么说呢?因为在生产创造性很强的文本上,像 chat gpt 这样的模型确实能力没那么强。

但在推理能力上,在解决很多逻辑问题上,它更接近一个高智能的人类,或者说像个很强的理科生。这里提到随着强化学习和时间计算量的争夺,1 的性能在持续提高。而且这个训练方法和普通的 LOLM 预训练不太一样。我估计这训练方式也是后续很多别的厂商,尤其是国内厂商学习的方向。

从一些评估上能看出,它相比 GPT4O 有非常巨大的提升,包括在数学水平、写代码水平以及科学问题的水平上。尤其是数学水平,提升能力太夸张了,从 13.4 分提升到 83 分。在写代码水平上,从 11 分提高到 89 分。

说实话,我后面很期待 cusor 这个 AI 自动写代码的应用,如果接入 o 1 模型,可能能实现比 claude 3.5、sonset 更强的水平。后面也能看出,在很多非常广泛的测试上,不管是各种类型的考试,还是机器学习的标准测试,还有 PhD 的一些考试,o 1 相比于原来的 4O 都有非常大水平的提升。可以认为这是一个标准的做题家,做题方面的能力提升非常明显。

然后呢,这里有个 chain of thought,就是原本这种思维链的模式得靠我们用 prompt 提示词技巧去激发模型才能获得。我之前的视频里也演示过该用啥样的提示词去激发确认 GPT 或者其他模型的思考能力。

从现在这篇技术文档来看,你会发现 open AI 通过这个模型把思维链给内化了。当用户问到一些相对复杂的问题的时候,你看左边和右边有个对比,是个很奇怪的解密码的问题。左边是 4o,右边是这个 o 1。你会发现,o 1 在思考能力和思考准确性上相比原来的 4o 都有非常明显的提升,最后还得到了正确结果。

而 4o 呢,面对一些复杂问题的时候,就算你激发它的思维链,它也没办法得到有意义的结果。所以可以认为现在的 o 1 能够进行思维链过程的思考,而且它的思考能力在智力上有明显提升。接着在编码方面,他们的模型在 2024 年的国际信息学奥林匹克竞赛中获得了 213 分,排名 49 位。这我觉得是个非常高水平的成绩。

因为用的是 2024 年的竞赛,所以在原来的训练模型里应该不包含这些问题,也就没有很多国内模型跑分时候的过度拟合以及很多问题已经训练过的情况。还有在 codeforce 的水平上,你会发现现在 Preview 放出来的版本以及后面真正的 o 1 版本,都比 GPT4o 有 50% 以上的分数提升。

不过有点不一样的是,o 1 更像个做题家,在人类偏好方面,像写作还有编辑文本方面,它其实并没有比 4o 有显著提升。只是在数据分析、数学计算以及编程能力上,提升幅度非常明显。所以得根据自己的任务需要去选择不同的模型。

要是想写作,完全可以选用原来的 4o 或者 claude 3.5 的模型,可能会有更好的表现。要是编程或者做数据分析,就可以用 o 1 模型。等 o 1 出来之后,我也会去试试它的编程、数据分析以及数学这类能力。好的,在思维链方面,他们目前会把这种模型思考的思维链隐藏起来。

一个是因为用户其实不需要看那么多文字,另一个是有这种思维链存在的话,对模型的可解释性会有非常好的帮助。所以现在的思维链更适合让 open AI 去理解它的模型是怎么运作的,以及怎么去监管这个模型,让模型更合规。

而对于普通用户来说呢,到时候可以忽略那个思考的过程。所以总结一下,o 1 现在是 open AI 最先进的模型,他们会在这个模型的基础上做进一步迭代。而且他们觉得 o 1 会在科学、编程以及数学相关领域有很强的提高,还会有一些新的案例。我们确实可以期待一下 o 1 发布之后,让它帮我们写代码、创建更多产品。

不过在写作方面,现在大型语言模型确实到了一定瓶颈,要写出比人类作家更好的文章可能还有一定难度。接下来呢,后面总共还有 12 个 open AI 放出来的、技术人员演示的用 o 1 写代码或者解难题的演示。你可以根据我屏幕上的内容,选择观看。

AI不只是工具,更是未来的商机,我是弼小侠,关注我带你解读AI商业前景

  1. 代码能力:生成式交互可视化代码
  2. 计数能力:准确计算字母出现次数
  3. 医学应用:辅助遗传学进行罕见病研究
  4. 游戏开发:快速实现贪吃蛇游戏
  5. 语言处理:解码损坏的韩语文本
  6. 数学能力:解决复杂数学谜题
  7. 游戏编程:创建“松鼠寻找者”游戏
  8. 游戏编程:草莓游戏
  9. 软件开发:介绍自主开发代理Devin
  10. 科学应用:处理量子物理学问题
  11. 常识推理:解答物理常识问题
  12. 逻辑推理:生成和解决数织谜题

对open ai发布的原文稿感兴趣的伙伴,可以关注小侠回复ai领取