极客公园创始人、总裁张鹏,阶跃星辰创始人、首席执行官姜大昕,月之暗面Kimi创始人杨植麟,清华大学人工智能研究院副院长、生数科技首席科学家朱军在云栖大会上。 受访者供图
近日,美国人工智能公司OpenAI旗下首款具备“推理”能力的模型o1和o1-mini正式向企业版(Enterprise)和教育版(Edu)用户开放访问权限。据悉,用户每周最多可输入50条消息。
OpenAI o1系列模型被业界认为是AGI(通用人工智能)的一大进程,不仅解决了此前备受争议的“13.11与13.8比谁大”的数学问题,还解决了科学、编程方面的问题,比此前的大模型能处理更为复杂的任务。
在近期举行的云栖大会上,针对包括“OpenAI o1可能会带来哪些影响”“目前大模型的发展是加速还是减速”“目前AI给产业带来了哪些影响”等议题,对中国AI影响颇大、被誉为“AI六小龙”的几位大模型公司掌舵者——阶跃星辰创始人姜大昕、月之暗面Kimi创始人杨植麟以及清华大学人工智能研究院副院长、生数科技首席科学家朱军,展开了精彩的讨论。
更像人的o1带来新的创业机会
OpenAI o1大模型的面世,再次引起了人们的关注。不过,OpenAI o1的发布在业界引起了不同的声音。
在阶跃星辰创始人、首席执行官姜大昕看来,OpenAI o1第一次证明了语言模型其实也可以有人脑的慢思考——即一种被称为“系统2”的能力。“系统1”是一种直线思维,拥有“系统1”能力的GPT4能把一个复杂问题拆解成很多步,再分步去解决,但它还是直线性思维的。而“系统2”的能力则能探索不同的路径、自我反思和纠错,不断试错直到找到一个正确路径。而OpenAI o1正是将以前的模仿学习和强化学习结合了起来,使得一个模型同时有了人脑“系统1”和“系统2”的能力。
姜大昕认为:“以前强化学习的场景都是为特定场景去设计的,比如AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。但OpenAI o1的出现使得强化学习通用性和泛化性上了一个大台阶。尽管OpenAI o1目前还没有到很成熟的阶段,还是一个开端,但这恰恰让人觉得非常兴奋,这相当于OpenAI找到了一条上限很高的道路,而且仔细思考它背后的方法,会发现这条路能走得下去。”
目前,学术界与产业界对AGI(通用人工智能的简称)做了L1-L5的分级。L1相当于聊天机器人,类似ChatGPT;L2是推理者,可以做复杂问题深度思考的推理;L3为智能体,可以改变和做交互,从数字世界走向物理世界;L4是创新者,能去发现、创造一些新的东西,或者发现一些新的知识;L5是组织者,可以去协同或者以某种组织方式更高效来运转。每一级都有狭义和广义的区分。清华大学人工智能研究院副院长、生数科技首席科学家朱军认为,从这个意义上来看,OpenAI o1已经在L2的某些特定任务下实现了人类高阶的智能水平。从分级角度来看,它确实代表着整个行业巨大的进步。
月之暗面Kimi创始人杨植麟也表示,OpenAI o1提高了AI的上限,人类可能只能使用AI提升5%-10%的生产力,但OpenAI o1可能用AI提升10倍的生产力。在杨植麟看来,这也会对产业格局或创业公司产生变化。“我觉得很关键的一个点是训练和推理算力占比会发生很大的变化,这个比例的变化本质上会产生很多新的机会。”
面壁智能CEO李大海则表示,OpenAI o1模型再次表明,原始和基础创新是人工智能发展的核心驱动,通过这次技术变革,大模型的算力重心可能逐渐从训练阶段转向推理阶段,大模型的研究中心也可能逐渐由自监督预训练范式转向强化学习范式和对齐阶段。
云设施、算力都准备好了
从ChatGPT面世引发整个世界开始关注AGI,发展到现在已经过去了18个月,大模型发展的技术是在加速还是在减速?AGI发展到了哪个阶段?
姜大昕表示,过去18个月大模型不仅在加速发展,而且发展速度还非常快。从“量”的角度来看,每个月都有新模型、新产品、新应用涌现。“比如单从模型来看,OpenAI过年的时候发了一个sora,把大家轰炸了一下。5月份出了一个GPT-4o,上周又出了o1。OpenAI的老对手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列等。过去我们的感觉是OpenAI一家独大,遥遥领先。今年就变成了一个群雄并起、你追我赶的局面,感觉各家发展都在提速。”
从“质”的角度,姜大昕表示,过去18个月发生了不少标志性事件。比如GPT-4o的发布让多模态融合上了一个台阶,将视觉理解、声音、视频生成等原本孤立的模型融合在了一起。而多模态的重要之处在于,物理世界本身就是多模态的世界,多模融合有助于模型更好地模拟物理世界。
此外,“特斯拉发布的端到端大模型FSD V12也是一大标志性事件。”姜大昕认为,智能驾驶是一个从数字世界走向物理世界的真实应用场景,FSD V12的意义不仅在于智驾本身,这套方法论可以为将来智能设备如何和大模型相结合、如何更好地去探索物理世界指明了一个方向。
对于当下大模型的发展状态,杨植麟则表示,从纵向维度看,模型的智商一直在提升,在数学能力、编程能力和能理解的上下文长度方面都有所体现。“比如竞赛数学的能力,去年完全不及格,今年已经能做到90多分;像代码基本上也能够击败很多专业的编程选手了,也产生了很多新的应用机会。另外,现在的语言模型能支持的上下文的长度,去年这个时间点大部分模型都只能支持4K-8K的,如今128K是一个标配,很多模型甚至可以支持1M甚至10M的长文本的长度,这个其实也是模型智商不断提升的一个很重要的基础。”
从横向维度看,模型的各种模态也在发展,这就让模型能具备更多技能、完成更多任务。“横向上也产生了很多新的突破,当然Sora可能是影响力最大的,比如视频生成。最近有特别多新产品和技术出来,现在可以通过一个论文直接生成双人对话,基本上看不出来是真是假。类似这样不同模态之间的转化、交互和生成会变得越来越成熟。”
朱军也表示,整体进展在加快,大家都在解决新问题,解决新问题的速度也同时在加快。今年2月sora震惊了很多人,因为它没有公开数据,当时还疑惑怎么去突破?但现在大概用了半年的时间,已经做到了可以去用视频模型,而且达到了很好的效果。
朱军认为,加速的核心原因是大家对路线的认知和准备已经达到一定程度,物理上云设施、算力资源也准备得比较好了,不再像ChatGPT刚出来时的不知所措。“当然不同的能力它再辐射到实际用户也有一些行业之分,但从技术来说,其实这个进展曲线是越来越陡,未来向更高阶的AGI发展可能会看到比之前更快的速度去实现了。”
AI进一步改变物理世界、产品形态
“过去22个月,AI发展的速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级APP,而是接管数字世界,改变物理世界。”云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭提到,生成式AI让世界有了统一的语言——Token,AI模型可以通过对物理世界数据的Token化,理解真实世界。吴泳铭还重点提到了汽车与机器人两大行业,并断言未来所有能移动的物体都会变成智能机器人。
朱军也提到,目前AI指向两个方向,一是让消费者看到的数字内容更好看、自然。另一个方向则指向实体和物理世界,一个较好的结合点是机器人。“我们自己实验室做的像四足机器人,过去大家在不同场地上,它跑起来需要很多的人工调参。但现在在一个仿真环境里,或者用AI方式生成一些合成数据,让它在里面大规模地训练,训练出来的策略可以灌到机器人上,它相当于换了一副大脑,可以让四肢更好地协同起来,同样一套策略可以做各种场地的适应。其实这还是一个初步的例子,现在大家也在关注更复杂的控制决策,就像空间智能、具身智能。”朱军称。
朱军还表示,等到AGI发展到L3智能体阶段时,机器人能更好地做推理规划,更好更高效地和环境做交互,更好地完成人类的复杂任务。“未来,我们很快可以看到机器人可以接受复杂的指令、完成复杂的任务,通过它内嵌的思维链或者过程的学习方式,能够完成复杂任务。到那个时候,智能能力又有一个很巨大的提升。”
杨植麟也表示,目前的AI进展会使聊天产品的形态一定会发生变化。“以后的AI可能不光是像现在这样,思考个20秒、40秒,它可能已经要调用各种工具,执行分钟级别、小时级别甚至天级别的任务,产品形态上可能会更接近一个人,更接近‘助理’的概念,帮你完成异步的任务(一个过程中并发执行的任务)。这里面的产品形态设计可能也会发生很大的变化,新的想象空间蛮大的。”
采写:南都记者 林文琪