浪潮信息发布了“源2.0-M32” 开源大模型。该模型在源2.0系列大模型基础上,采用了“基于注意力机制的门控网络”技术,构建包含32个专家的混合专家模型(MoE),并大幅提升模型算力效率。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,所消耗算力仅为LLaMA3的1/19。
本文源自金融界AI电报