阿里云开源模型Qwen2引领风潮,性能超越国内闭源模型
发表时间: 2024-06-07 16:33
6月7日,阿里云更新技术博客:发布开源模型Qwen2-72B。阿里云称该模型性能超过美国开源模型Llama3-70B,也超过文心4.0、豆包pro、混元pro等众多中国闭源大模型。
在技术博客中通义千问披露了Qwen2系列包含5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B为混合专家模型(MoE)。
在大模型领域,开源与闭源一直是业界讨论的焦点。早在4月11日晚,百度创始人李彦宏的内部讲话曝光,直言大模型开源的意义不大。而后360周鸿祎、百川智能王小川、猎豹移动傅盛等人,也相继发表了自己的观点。
在5月9日,与媒体沟通中,阿里云CTO周靖人在谈及开源技术时表示,在2024年的今天,开源技术对于全球技术的发展价值已经毋庸置疑,不管从国际还是国内来看,开源模型的发展速度都比预期的更快,并称通义未来也还会持续开源。
值得注意的是,同样在5月9日,阿里云还发布了闭源模型通义千问2.5,称中文场景性能超过GPT-4。从某种程度上来说,阿里云在开源闭源路线上是齐头并进。