选择大模型时,开源与闭源并非决定性因素

发表时间: 2024-05-14 15:12

阿里云昨日正式发布通义千问2.5版本,并开源通义千问1100亿参数模型。相比上一版本,2.5版本模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

开源是更便捷地构建生态的手段

同时,通义千问发布1100亿参数开源模型Qwen1.5-110B,该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型;在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B冲上榜首,这表明在开源大型语言模型领域,国内的大模型企业取得显著进展。对于用户来说,这样的进展意味着有更多优质、强大的模型可供选择。Qwen1.5-110B模型在MMLU、TheoremQA、GPQA等基准测评中的优异表现,证明了其在理解和回答各类问题方面的专业性和准确性。

开源实际上是更便捷地构建生态的手段,是获得更多的用户群体的一种方式。一直以来,阿里云是大模型开源最积极的推动者和实践者。去年8月,通义千问宣布加入开源行列,沿着“全模态、全尺寸”开源的路线,陆续推出十多款开源模型。目前,通义千问开源模型下载量已经超过700万。

阿里云推动大模型开源不仅可以促进技术创新、增强与产业链上下游企业合作,还能推动整个行业发展。开源大模型可以促进整个行业的技术创新和进步,通过让更多人参与其中,可以带来更多的灵感和想法,推动人工智能领域的发展。

AI大模型通常有数亿到数千亿的参数,这些参数用于存储和学习模型的知识。B是Biion(十亿)的意思,如7B模型就是70亿参数量的大模型。为顺应不同场景用户的需求,通义千问推出参数规模横跨5亿到1100亿的八款大语言模型,小尺寸模型如0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC等端侧设备部署;大尺寸模型如72B、110B能支持企业级和科研级的应用;中等尺寸如32B试图在性能、效率和内存占用之间找到最具性价比的平衡点。此外,通义千问还开源了视觉理解模型Qwen-VL、音频理解模型Qwen-Audio、代码模型CodeQwen1.5-7B、混合专家模型Qwen1.5-MoE。

通义千问72B、110B开源模型都曾登顶Open LLM Leaderboard榜首。在开放研究机构LMSYS Org推出的基准测试平台Chatbot Arena上,通义千问72B模型多次进入“盲测”结果全球Top 10,开创国产大模型的先例。阿里云CTO周靖人表示:“开发者的反馈和开源社区的生态支持,是通义千问大模型技术进步的重要助力。”未来通义千问大模型还会持续开源。

除阿里云外,以下企业也在推动大模型的开源。OpenAI开源了许多重要的大模型,如GPT系列模型,以及一些用于强化学习和计算机视觉的模型。谷歌在人工智能领域开源了许多重要的大模型和相关技术,如BERT、Transformer等。Meta在人工智能研究和开源方面做出了很多贡献。他们开源了一些重要的大模型和工具,如PyTorch深度学习框架等。微软在人工智能领域也有着广泛的研究和开源项目,他们开源了一些大模型和工具,如Microsoft Cognitive Toolkit等。华为开源了一些大模型和相关技术,如MindSpore深度学习框架等。百度开源了一些大模型和工具,如百度PaddlePaddle深度学习框架等。腾讯开源了Angel模型。百川智能开源了大模型Baichuan2 ,发布70亿和130亿参数规模的两个版本。

这些企业通过开源大模型和相关技术,为整个人工智能领域的发展和创新做出了重要贡献。开源大模型可以降低AI大模型的使用门槛,让无数开发者基于大模型来开发基础设施工具和应用,有望加速下游行业AI应用的开发效率、促进生态的蓬勃发展。同时,开源意味着更多的人可以审查它,识别并修复可能的问题,从而提升了安全性。

开源与闭源:互补关系

“开源模型会越来越落后。”Create 2024百度AI开发者大会上,百度创始人、董事长兼首席执行官李彦宏的这句话广为流传,并引起了关于大模型开源与闭源的讨论。虽然开源大模型对用户来说有诸多便利,但闭源的优势也是不容忽视的。

在李彦宏看来,相比开源,闭源模型在成本上也具有有优势。“大家以前用开源觉得开源便宜,其实在大模型场景下,开源是最贵的。”“只要是同等能力,闭源模型的推理成本一定是更低的,响应速度一定是更快的。”他还称,同等参数的情况下,闭源模型的能力也是更强的。“最强的基础模型都是闭源的,而各种各样的小模型,都是通过大模型‘蒸馏’来的。通过大模型降维做出来的模型就是更好的,这也导致闭源在成本上、在效率上有优势。”

开源与闭源,并不是企业用户考虑的最核心因素,最优性价比、企业的数据安全,能助力企业的发展,才是选择时优先考虑的。百川智能CEO王小川认为,未来80%的企业会用到开源的大模型,因为闭源没有办法对产品做更好的适配,或者成本特别高,闭源可以给剩下的 20%提供服务。两者不是竞争关系,而是在不同产品中互补的关系。

如果数据资源丰富、技术实力强大,又下定决心打造生态,完全可以既通过开源方式显示其技术实力、获得更多的技术支持和数据反馈,打造开源生态;又通过专业的闭源模型将其封装为产品,提供给有需要的行业用户,实现商业变现。


作者:杨光

编辑:高珊珊

监制:刘晶