推理模型o1的出现,让不少人感叹“OpenAI果然还是OpenAI”,极强的逻辑推理能力和近乎人类的推考模式,让o1为AI注入灵魂的同时,华人正默默推动AI产业的发展。
01
中美大模型差距过大
国足还越追赶越落后呢
承认差距并不可耻,在2024中国计算机大会新闻发布会现场,中国工程院院士孙凝晖回答提问“追赶了2年,为什么中美AI还有2-3代的差距?”时,孙凝晖回表示:“很正常,中国足球还越追赶越落后了呢。美国就是技术的火车头,你再怎么讨厌它,它一定跑得快。”
随后,“院士拿国足类比中美大模型差距”的话题就被挤上了热搜(特别是0:7惨败日本后,更是激起了网友的怒火),不少网友纷纷点赞,直言描述太到位了。
不过也有网友表示:“美国在做0→1,中国在做1→1,这不一样。美国是具有研发能力的,能设计出这样的模型结构,训练方法,里面积累了很多的经验和方法,这些是不公开的。”
“美国和中国的代差不是表面上模型能力的代差,而是研发能力的代差。美国在研究下一代模型,只有美国研究出来了,中国才能迎头赶上。”。
然而,昨天深夜发布的OpenAI o1大模型,或许真让人们看到了下一代大模型的样子。
02
推理模型o1为AI注入灵魂
自OpenAI因AI大火之后,“里程碑”“标杆”“风向标”等赞誉便毫不吝啬地被媒体放到了其产品上,然而,作为一款能让OpenAI命名为“o1”,足以看出昨天发布的新模型的意义。
o1被赋予了“o”系列,以彰显其在推理和复杂问题解决方面的突破性进展,而OpenAI将计数器重置为1,并以此作为新系列模型的编号,这表明o1是该公司在人工智能领域的一个新的起点或里程碑。
作为一款全新的推理模型,o1模型在一系列高难基准测试中展现出了超强实力,包括数学、编码和科学问答等领域。
具体而言,在AIME2024高水平数学竞赛中,o1正式版的准确率达到了83.3%;在编程竞赛中,o1正式版的准确率为89%;在测试博士级科学问题的基准GPQA-Diamond上,o1甚至超过了人类专家的水平。
在许多推理密集型基准测试中,o1的表现可与人类专家相媲美。最近的前沿模型在 MATH 和 GSM8K 上表现得非常好,以至于这些基准测试在区分模型方面不再有效。
OpenAI 还在 GPQA Diamond 基准上评估了o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。
实验结果表明:o1超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。
相对于性能方面的提示,o1模型真正引发业内热议的是其逻辑思维模式。
o1的核心特点在于它能够在回答问题前进行深入思考,模仿人类的思维过程,从而更好地处理复杂的推理任务。
o1模型通过强化学习训练,具备了真正的通用推理能力。这种训练方法使得模型能够识别并纠正错误,并尝试不同的策略来提高推理能力。与传统的大型语言模型(LLM)相比,o1 的性能随着训练时间和推理时间的增加而显著提升,这表明其具有独特的扩展性优势。
o1的另一个显著特点是它在回答问题之前会花费更多的时间进行思考,类似于人类解决问题的方式。这一过程被称为“思维链”或“推理链”,使模型能够更系统地分解复杂任务并逐步解决。这种深度思考的能力不仅提升了模型的准确性和可靠性,还使其在专业领域的基准测试中超越了许多人类专家。
相比其他AI模型,与人类在回答难题之前会长时间思考类似,o1在尝试解决问题时会使用思维链。通过强化学习,o1 学会磨练其思维链并改进其使用的策略。o1 学会了识别和纠正错误,并可以将棘手的步骤分解为更简单的步骤。o1 还学会了在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。
在编程竞赛上进一步微调使得 o1 能力又增,并在 2024 年国际信息学奥林匹克竞赛(IOI)规则下排名前 49%。
具体而言,相较于当下ChatGPT们“脱口而出”的回答方式,OpenAI o1面对问题时总会先思考再给出答案。以编程应用为例,基于 o1 进行了初始化并进一步训练了其编程技能后,OpenAI 训练得到了一个非常强大的编程模型(o1-ioi)。该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了 213 分,达到了排名前 49% 的水平。并且该模型参与竞赛的条件与 2024 IOI 的人类参赛者一样:需要在 10 个小时内解答 6 个高难度算法问题,并且每个问题仅能提交 50 次答案。
针对每个问题,这个经过专门训练的o1模型会采样许多候选答案,然后基于一个测试时选取策略提交其中 50 个答案。选取标准包括在 IOI 公共测试案例、模型生成的测试案例以及一个学习得到的评分函数上的性能。
研究表明,这个策略是有效的。因为如果直接随机提交一个答案,则平均得分仅有 156。这说明在该竞赛条件下,这个策略至少值 60 分。
这样的“思考”模式,意味着o1模型足以改变当下AI逻辑推理的底层逻辑,类人类思考的模式近乎在赋予AI灵魂。
03
华人正在改变OpenAI
随着OpenAI最新的文生视频大模型Sora和Anthropic的人工智能模型Claude 3相继亮相,华裔力量赋能下的美国大模型团队接连推出“颠覆行业”的革命性产品,这些大模型背后的团队和企业也从幕后被媒体推向台前,站在了聚光灯下的中心。
以知名的ChatGPT项目为例,根据OpenAI官网显示,为ChatGPT项目做出贡献的人员共87人。从ChatGPT团队成员毕业高校分布看,斯坦福大学校友最多(14人),其次是加州大学伯克利分校(10人),第三是麻省理工学院(7人)。我国清华大学与卡内基梅隆大学并列第7名,各有3人。
在团队成员毕业人数前10名的高校中,均有2人及以上的分布量,共计54人,其中7所高校位于美国;排名第10之后的高校均只有1人,其中不乏全球顶尖大学,如牛津大学、东京大学、康奈尔大学等。总体看,ChatGPT团队成员绝大部分拥有全球顶尖或知名高校学位;另外,其毕业院校相对分散,前3甲高校只占总人数的37%。
ChatGPT团队中的华人表现抢眼。团队共有9为华人,占团队总人数10%。其中5人本科就读于中国内地高校,3人大学教育经历均在美国高校完成。
而在OpenAI o1项目中,同样有大量华人面孔。在OpenAI的o1项目中,有多位华人科学家和工程师做出了重要贡献。以下是一些核心贡献者的介绍——
1. Hongyu Ren
背景:本科毕业于北京大学计算机科学专业,博士毕业于斯坦福大学。
经历:在加入OpenAI之前,他曾在谷歌、苹果、英伟达、微软等公司工作过。
贡献:自去年7月加入OpenAI以来,他已成为研究科学家,并且是GPT-4o、GPT-4o mini的核心贡献者,同时致力于GPT-Next的研究。在o1项目中,他的专业知识和经验无疑对模型的研发起到了重要作用。
2. Ahmed El-Kishky
背景:本科毕业于塔尔萨大学,博士毕业于伊利诺伊大学厄巴纳-香槟分校,导师是韩家炜教授。
经历:在加入OpenAI之前,他曾在X(原名推特)、Meta等公司任职。
贡献:于2024年2月加入OpenAI,虽然时间不长,但他在大规模机器学习、自然语言处理、图机器学习和推荐系统等领域的研究经验为o1项目提供了有力支持。
3. Daniel Selsam
背景:博士毕业于斯坦福大学。
经历:在加入OpenAI之前,他曾在微软工作,并在DeepMind(现为谷歌DeepMind)做过实习生。
贡献:作为OpenAI的研究员,他参与了GPT-4的研究,并在o1项目中继续发挥重要作用。
4. Francis Song
背景:博士毕业于耶鲁大学。
经历:在加入OpenAI之前,他是DeepMind的研究科学家。
贡献:自2022年6月加入OpenAI以来,他已成为技术人员,并在o1项目中贡献了自己的力量。
5. Giambattista Parascandolo
背景:博士毕业于苏黎世联邦理工学院。
经历:在加入OpenAI之前,他曾在DeepMind等机构工作。
贡献:作为OpenAI的AI研究科学家,他领导一个团队专注于解决模型推理问题,并参与了GPT-4的研究,对o1项目的推理能力提升有重要贡献。
除了以上两个明星项目外,OpenAI 中的华人团队成员在多个项目中发挥了重要作用。
1.Sora 团队:这个由13人组成的团队中有3名华人,包括一名北大校友。
2.Omni 团队:该团队共有17人,其中6位是华人,他们的本科分别来自清华、北大、上交和中科大等顶尖高校。
3.GPT-4o mini 团队:这个9人团队中有超过一半的成员是华人,包括清华、北大和同济大学的校友。
事实上,在全球AI大模型领域,华人已经成为一股不容忽视的力量。在AMiner前不久发布了《全球十个大模型核心团队成员分析报告》,该报告结合当下模型知名度和专家建议选取了全球十个大模型(GPT、Gemini、Claude、GLM、LLaMA、Qwen、Falcon、PaLM、BERT、T5),从地域分布、年龄结构、教育背景、华人占比和学术影响力 5 个维度进行全面分析,揭示了十个大模型核心成员的人才现状。
中、美、全球十个大模型核心成员年龄分布数据来源:AMiner 开放平台(注:中、美成员按照当前所在机构国家统计)TGI =(当前国家年龄段分布占比/全球成员分布占比)× 100
该报告明确提出华人在大模型领域具有一定竞争力,在挑选的国外(除 GLM、Qwen)大模型团队成员 899 人中,华人成员共计 167 位占比达 18.7%。
十个大模型团队全部核心成员的智慧摇篮主要集中在世界著名的高校,其中加州大学系统和斯坦福大学为最主要的培养基地。清华大学为唯一一所上榜的中国高校,占居重要地位。十个大模型核心成员最高学历曾在中国高校就读的 139 位中有 86 位进入国际市场,说明国际市场对中国高校教育水准的认可。
除此之外,AMiner 团队在《全球十个大模型核心团队成员分析报告》中,也特别从团队人才结构、学术背景、团队稳定性和学术贡献方面,对当下大模型巅峰团队 GPT 和第一个原生多模态模型团队 Gemini 进行了详细的团队分析。
种种迹象表明,华人在全球AI大模型领域已成为一支不可或缺的力量。未来,随着中国高校和研究机构在国际上的影响力不断增强,以及国内AI产业的快速发展,华人科研人员在这一领域的影响力预计将进一步提升,为全球AI技术的发展做出更大的贡献。
04
写在最后
AGI时代的基石,不算便宜的定价
感叹于华人对OpenAI o1做的贡献以前,再回到OpenAI o1在整个行业的地位和影响上。
OpenAI认为o1模型将是通往AGI(通用人工智能)的基石之一。随着技术的不断进步和模型的不断优化,o1有望在未来发挥更加重要的作用。这里需要注意的是,OpenAI o1作为早期模型,它还不具备ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。
目前o1模型已逐步向ChatGPT Plus和Team用户开放,推出了o1预览版和o1 mini两个版本。o1 mini虽然在功能上有所阉割,但依然在推理方面表现不俗,适合数学和代码问题。
针对开发者,o1的API价格相对较高。o1预览版的费用为每百万输入15美元,输出60美元;而o1 mini则相对便宜,输入每百万3美元,输出12美元。这种定价策略展示了o1模型的市场独特性,而同为OpenAI旗下的两款模型,不少人都好奇o1与GPT-4o的定价对比,这里我们做一个简单的对比——
关于o1模型的定价:
·输入价格为每百万token 15美元。
·输出价格为每百万token 60美元。
关于GPT-4o的定价:
·输入价格为每千token(约750个单词)0.03美元。
·输出价格为每千token(同样约750个单词)0.06美元。
从这些数据可以看出,o1模型的输入和输出价格分别是GPT-4o的3倍和4倍,这可能会影响开发者和企业在使用这两种模型时的成本考量,不过这样的定位也充分反应了o1的市场定位,其除了已经展示的数学、编码和科学问答等领域外,未来还有可能扩展到更多领域如医疗、金融、教育等。
总体而言,o1模型的推出预示着人工智能领域的竞争将愈加激烈。大模型的发展离不开底层技术支持和应用场景的迭代,o1模型的成功应用不仅能够降低AI开发门槛,还能提高模型精度和内容生成质量,从而促进AI技术的商业化落地。此外,开源形式的大模型生态圈有助于提升产品的兼容性和竞争壁垒。