开源VS闭源:大模型技术路线的较量,阿里云与百度展开对决

发表时间: 2024-05-09 15:41

开源还是闭源?大模型的路线选择,近期在科技大佬圈爆发了不少口水仗。阿里通义是开源阵营的一员,5月9日,阿里云CTO周靖人在AI智领者峰会上介绍,阿里通义的开源路线沿着“全模态、全尺寸”的思路布局,覆盖不同参数量级,开源语言、视觉多模态模型

“毫无疑问,今天我们是开源模型的一个领导者。”周靖人说,通义系列开源模型下载量已经超过700万次,“我们会坚持开源的模式”。

阿里云AI智领者峰会 图:杨柳

阿里通义从去年8月宣布加入开源阵营。此前4月28日,阿里云通义千问发布最新款开源模型Qwen1.5-110B,拥有1100亿参数。据阿里云开发者社区官网介绍,Qwen1.5-110B与其他Qwen1.5模型相似,采用了相同的Transformer解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效,支持32K tokens的上下文长度。

“Qwen1.5-110B模型在基础能力评估中与Meta-Llama3-70B相媲美。”阿里云称。Meta-Llama3-70B由Meta公司在4月18日发布,是Llama系列开源模型的最新版本。

阿里云方面解释说,大模型的训练和迭代成本极高,绝大部分的AI开发者和中小企业都无法负担。Meta、阿里云等推动的大模型开源风潮,让开发者不必从头训练模型,还把模型选择的主动权交给了开发者,大大加速了大模型的应用落地进程。

推动模型开源的同时,阿里云另外搭建了AI模型开源平台“魔搭社区”。 周靖人介绍,“魔搭社区”平台的开源模型总数已超过4500个,开发者数量超过500万,是“中国最大的模型社区”。

国内一家开源社区负责人告诉南都记者,大模型开源包括模型架构、模型权重(即神经网络中的参数,用于调整和学习模型的行为)和数据集三个方面。大模型公司之所以选择开源,首先是用来市场占位,没有足够财力和资源的人会选择使用开源模型;其次能带来好的化学反应,通过获取更多的用户反馈和使用痛点,帮助模型迅速迭代。

今年2月下旬以来,国内外的两起论战将大模型开闭源路线之争摆上台面。

当地时间2月29日,特斯拉CEO马斯克宣布向OpenAI和公司CEO阿尔特曼等提起诉讼,要求OpenAI恢复开源。为兑现开源承诺,马斯克在3月中旬宣布开源3140亿参数的大模型Grok-1。

国内方面,百度当属闭源路线的坚定者。百度CEO李彦宏4月中旬的一场内部讲话流出,给开源路线泼冷水。他说,模型开源的意义不大,闭源才有真正的商业模式,能够赚到钱并聚集算力和人才。李彦宏随后在4月18日的百度AI开发者大会进一步断言:“开源模型会越来越落后。”其理由是,通过文心4.0降维裁剪出来的更小尺寸模型,比直接拿开源模型调出来的模型,在同等尺寸下效果明显更好;同等效果下,成本明显更低。

360董事长周鸿祎针锋相对,他在4月13日一场论坛上说:“我一直相信开源的力量,网上有些人胡说八道,你们也别被他们忽悠了,说开源不如闭源好。”周鸿祎3月中旬参加央视《对话》栏目节目录制时就表示,开源的力量是集中力量办大事,可以对闭源模型形成明显的制约,避免垄断。

与Meta完全开源、OpenAI和百度极致闭源的路线相比,其余大模型公司更多选择中间路线:模型“低配版”开源,更高参数量的模型闭源。比如,谷歌Gemini多模态模型闭源,但今年2月宣布开源单模态Gemma语言模型;法国的Mistral AI最初一直是开源模型的拥趸,但2月获得微软投资后,将新发布的旗舰级大模型 Mistral Large闭源;王小川创立的百川智能做法相似,2023年4月成立之初发布的第一代Baichuan大模型和9月发布的Baichuan 2均开源,但今年1月推出的超千亿大模型Baichuan 3则完全闭源;中国AI大模型“五小龙”(智谱、百川、MiniMax、月之暗面、零一万物)的另外一家——智谱AI,在1月发布GLM-4时同样选择了闭源模式。

南都记者了解到,零一万物创始人李开复在3月18日一场发布会上透露,在现有的34B开源大模型基础上,零一万物后续“还会有更大规模的闭源模型”。

艾瑞咨询在一份AIGC产业报告中分析,大模型技术前沿厂商出于打造自身先进模型壁垒、构建技术护城河的商业考虑,会选择闭源或逐步从开源走向闭源,以保证模型的先进性、稳定性、安全性。而开源可以促进广大开发者和研究者的创新,从商用角度加速大模型的商业化进程与落地效果。

艾瑞咨询认为:“未来,开源和闭源的大模型会并存和互补。”

5月9日的AI智领者峰会上,阿里云还正式发布通义千问2.5版本。阿里云方面表示,相较于通义千问2.1,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

采写:南都见习记者 杨柳