编辑:编辑部 HXZ
OpenAI o1,在IQ测试中拿到了第一名!
大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。
紧随其后的,就是Claude-3 Opus和Bing Copilot,分别取得了第二名和第三名。
注意,这套智商测试题,属于门萨会员的离线智商测试,不在任何AI训练数据中,因此结果非常具有参考性。
著名数学家陶哲轩也对o1进行了实测,发现自己向模型提出一个措辞模糊的数学问题后,它竟然能成功识别出克莱姆定理。
更巧的是,就在o1发布之后,OpenAI的研究副总裁Mark Chen发表观点称:如今的大型神经网络,可能已经具有足够的算力,在测试中表现出一些意识了。
相信AI具有意识的行业领导者,如今已经有了一串长长的名单,包括但不限于——
如今,业内许多人都相信AI具有意识,而且正在等待「奥弗顿之窗」进一步打开,从而使公众愿意接受这一点。
甚至有人预言:在2024/2025年,AI一定会具有意识,因为如今模型的行为已经明显表现出感知能力了。
有网友发现,o1不仅是对经验性的STEM学科很强,它甚至能够假设出一种全新的意识理论。
有人觉得,o1向无限推理模型迈出的一小步,已经具备意识的雏形。
陶哲轩:o1竟能识别出克莱姆定理
而在实测中,陶哲轩发现:o1模型在数学方面的的性能更强了!
首先,他提出了一个措辞模糊的数学问题,如果能搜索文献并找到合适的定理,即克莱姆定理(Cramer's theorem),就可以解决这个问题。
之前的实验中,GPT能够提到一些相关概念,但细节都是胡编乱造的无意义内容。
而这一次,o1成功识别出了克莱姆定理,并给出了令人满意的答案。
完整回答:https://shorturl.at/wwRu2
在下面这个例子中,提出的问题是更有挑战性的复变函数分析,结果同样好于之前的GPT系列模型。
在有大量提示词和引导的情况下,o1能输出正确且表述良好的解决方案,但不足之处在于无法自行产生关键的概念性想法,而且犯了明显错误。
陶哲轩形容,这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,GPT给人的感觉则是一个完全无法胜任工作的学生。
可能只需要经过一两次迭代,再加上其他工具的集成,比如计算机代数包和证明辅助工具,就能让o1模型蜕变为「称职的研究生」,届时这个模型将在研究任务中发挥重要作用。
完整回答:https://shorturl.at/ZrJyK
上下滑动查看
上下滑动查看
上下滑动查看
第三个实验中,陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理,需要先将其分解为子引理并给出形式化表述,但不需要给出证明。
定理的内容,具体来说,是将素数定理的一种形式建立为另一种形式的推论。
实验结果也很不错,因为模型理解了这个任务,并对问题进行了合理的初步分解。
然而,可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据,生成的代码中也有几处错误。
尽管仍有缺陷,但这次实验结果已经能让人预见到o1在数学研究中的实际应用。
类似的模型如果针对Lean和Mathlib进行微调,并集成到集成开发环境(IDE)中,在形式化项目中将会发挥极大的作用。
在之前的多次演讲中,陶哲轩曾反复强调过AI工具在定理形式化中的应用,看来大神的预言又会成真了。
完整回答:https://shorturl.at/OGtjt
计算机教授用动画揭秘:o1如何花更多时间思考?
o1学会用CoT思考更长时间的过程中,究竟是取得了哪些重要突破,才造成了关键性的提升?目前我们只能从已有信息中做一些猜测。
比如,基于已有信息和自己的理解,科罗拉多大学博尔德分校计算机教授Tom Yeh就专门制作了一个动画,讲解OpenAI是如何训练o1模型花更多时间思考的。
关于训练,报告中有非常简短的一句话:
「通过强化学习,o1 学会了磨练其思维链并改进策略。」
这句话中的两个关键词是:强化学习(RL)和思维链(CoT)。
在报告列出的贡献者中,有两个人值得关注:
不过,有很多重要的技术细节OpenAI并没有透露,比如奖励模型是如何训练的,如何获取人类对「思考过程」的偏好等等。
免责声明:动画仅代表教授的合理推测,并不保证准确性
团队分享庆功视频,分享「啊哈」时刻
关于研究中取得重要突破的瞬间,在下面这个视频中,给了我们更多线索。
在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。
在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。
所以,团队成员们分别经历了怎样的「啊哈」时刻呢?
有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。
就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。
还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。
对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。
这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。
这一位研究者说,自己一直在努力提升模型解决数学问题的能力。
让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。
然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。
而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。
他惊叹道:我们终于做出了不一样的东西!
这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。
Open o1团队开放团队问答,直面质疑
大家对o1模型的细节都有诸多疑问,因此,OpenAI o1团队也表示,将在X上组织一个AMA(Ask Me Anything)的活动,通过下方评论和用户互动。
网友们非常踊跃,提出了诸多关键细节问题。
比如,有没有办法强迫模型,让它思考的时间长一点?
团队的回答是:目前还没有这个选项,但会考虑改进,让用户更好地控制模型思考的时间。
有人向Jason Wei提问道:在o1范式下见过什么逆缩放示例,看到模型变得更差?此外,他还质疑目前的基准测试排名缺乏足够的证据。
Jason Wei回答说,自己并不知道,相信其他人见过。在某些类型的提示下,OpenAI o1-preview似乎并不比GPT-4o好多少,甚至还稍差一些。
而对于LLM排行榜如何公平比较的问题,Jason Wei表示自己也不知道。但他可以肯定:无论怎样努力地提示GPT-4o,都不可能让它获得IOI金牌。
还有人提出了一个很多人都感到困惑的问题:o1究竟是不是一个在幕后运行CoT,然后提供答案或模型的系统呢?它是否使用了特殊token进行推理,在输出时隐藏了这些token?
Noam Brown回答说,自己不会说o1是一个系统,它是一个模型,但与之前的模型不同。这个回答,看起来有点语焉不详。
还有人采访道:o1表现出的最令人深刻的一点是什么?
Noam Brown回答说,自己给模型下指令让它自己回答这个问题。
在CoT中,模型开始自己给自己出难题测试自己,来确定自己的能力水平。一个模型会这么做,就足够让人印象深刻的了。
Hyung Won Chung则表示,模型对哲学问题的思考过程颇为引人入胜。比如,生命是什么?
活动结束后,大V「Tibor Blaho」专门写了一篇总结,对于团队的回答,做出了简明扼要的概括——
参考资料:
https://mathstodon.xyz/@tao/109945628011027107
https://twitter-thread.com/t/1834686946846597281
https://x.com/ProfTomYeh/status/1834617696215806285
https://x.com/markchen90/status/1834623248610521523