天工3.0发布：探索4000亿参数的MoE模型，音乐生成的新纪元

发表时间: 2024-04-17 21:26

作者 | 香草
编辑 | 漠影

智东西4月17日报道，昆仑万维今日重磅推出4000亿参数开源大模型天工3.0，其采用MoE（混合专家模型）架构，相比2个月前的天工2.0，逻辑推理、语义理解、复杂需求应对、内容创作等4大核心能力大幅提升。

天工3.0新增了图表对比生成、研究模式、增强模式、扩图修图等功能，并针对性地训练了模型的Agent能力，使得模型能够“独立思考”，规划、拆解用户需求，完成复杂任务。

同时，基于天工3.0打造的天工SkyMusic也是中国首个音乐AIGC SOTA（领域最佳水准），其采用音乐音频领域类Sora模型架构，是国内唯一公开可用的音乐生成大模型。

天工SkyMusic大幅降低了音乐创作门槛，虽然仍处于起步阶段，但其已经在音乐生成领域取得了不错的效果。4月初开启邀测后，天工SkyMusic后台提交测试申请的人次超百万。

▲广场舞神曲版《再别康桥》（来源：智东西）

天工3.0大模型的发布，代表了昆仑万维“All in AGI与AIGC”战略路径上的又一里程碑时刻。功力大增的天工3.0大模型，到底有多好用？能在哪些方面显著提升生产力？智东西第一时间体验了天工3.0。

一、全球最大开源MoE模型，4000亿参数、4大核心能力升级

天工3.0参数规模达到4000亿级，是全球最大规模的开源MoE大模型。相较于上一代，天工3.0的模型技术知识能力提升超过20%，数学、推理、代码、文创能力提升超过30%。

▲天工3.0成为全球最大开源MoE大模型

天工3.0基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4个方面大幅提升。作为多模态大模型，天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能，在MMBench等多项权威多模态测评结果中超越GPT-4V。

▲天工3.0多模态性能超越GPT-4V

基于模型能力的提升，天工3.0还新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能，可以高效地完成产业分析、产品对比等各类复杂需求。

在研究模式中，天工3.0能够围绕简单指令进行相关问题的延伸，自动生成研究大纲、图谱、实践总结、思维导图等。

例如，我让天工3.0研究“OpenAI发展历程”。在全网搜索后，它能以分段提炼等形式呈现搜索结果，并自动总结大纲、绘制思维导图。

▲天工3.0总结OpenAI发展历程（图源：智东西）

在增强模式中，天工3.0能够针对用户的复杂Query进行拆解、细化，通过追问、信息理解与补全，使其在自然语义理解方面性能更强，更好地面对不确定性知识。

比如我输入了提示词“2024年科技圈”，这个需求的难度是比较大，会包含多种细分需求的提示词。天工3.0能立即意识到这个问题并进一步追问，它还贴心地提供了行业发展趋势、产品市场规模、投资环境等方向选择。在我选择“发展趋势”后，它基于联网获取的资料很快给出了包含AI、AIoT、新能源等趋势信息的回答。

▲天工3.0增强模式（来源：智东西，视频有加速）

基于多轮搜索及综合工具调用功能，天工3.0可以将用户任务拆解成细分环节，实时判断是否需要联网或调用工具，进行单轮或多轮的联网搜索、工具调用。

联网当然要考察最新的时事热点，我决定问问天工3.0“成都迪士尼”最近为什么这么火，天工3.0随即准确地解释了这个梗的来源及事件经过。然后我跳转话题，问“迪士尼游玩攻略”，天工3.0联系上下文，给出了成都的出行攻略。改成问上海迪士尼的天气也完全没问题，通过调用天气组件工具，天工3.0能够直接给出近几日上海的天气预报。

▲天工3.0多轮搜索及综合工具调用功能（图源：智东西）

在图像生成方面，天工3.0的改图扩图能力取得突破，可以让它绘制一张风景图，并逐步在图中增加新的物品或元素：

▲天工3.0图像绘制（图源：智东西）

对于用户而言，天工3.0不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景，也适用于内容创作、教育培训、智能搜索、语音合成、图像和音乐生成等娱乐场景。

学生党、打工人可以利用天工3.0的研究模式和增强模式，通过简单的查询获得全面而精炼的资料，文献搜集、资料汇总等所需的时间大幅缩短，提升工作学习效率。

内容创作者可以利用天工3.0的AI音乐生成、AI语音、AI图像生成等功能，提高创作效率和质量，同时创作门槛降低，人人都可以成为“作曲家”、“插画师”。

此外，在ToB领域，企业用户也可以利用天工大模型构建专属Agent，实现专属知识库，实现自动调用制定工具、完成复杂指令遵循Agent构建等，提升工作效率、优化决策过程、增强产品和服务的竞争力。

二、国内首个音乐AIGC SOTA，秒级生成80秒歌曲、人声“以假乱真”

近期，海外的音乐生成产品Suno、Udio爆火，AI音乐生成领域受到了前所未有的关注。但这些产品面向海外市场设计，对于国内用户而言有一定的使用门槛。

基于天工3.0打造的天工SkyMusic，不仅是目前国内唯一公开可用的AI音乐生成大模型，而且在人声&BGM音质、人声自然度、发音可懂度等性能方面，以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

▲天工SkyMusic综合性能超越Suno V3

天工SkyMusic可以生成80秒44100Hz采样率双声道立体声歌曲，支持生成说唱、民谣、放克、古风、电子等多种音乐风格，还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。

此外，天工SkyMusic还拥有独创的参考音乐生成与方言歌曲生成能力。用户可上传或选取现有的参考音乐，生成与之风格、唱腔类似的歌曲，进一步降低了使用门槛；也可以生成粤语、成都话、北京话等方言，传播地域文化。

其使用方法也非常简便，用户只需下载天工APP，填写歌词或使用AI生成歌词，再选择或上传一首参考歌曲，点击“生成”即可在不到半分钟的时间内生成音乐，并且每首歌都提供三个版本可供选择。

基于天工SkyMusic的SOTA能力和情感表达优势，你可以为自己喜欢的古诗词配上旋律：

▲抒情版《长恨歌》（来源：智东西）

这首《长恨歌》是我用徐佳莹的歌曲《身骑白马》作为参考生成的，天工SkyMusic生成的音乐在伴奏上层层递进，在旋律上也体现出了主歌和副歌的段落差异。

也可以将网络热梗改编成说唱版：

▲说唱版网络热梗（来源：智东西）

这段话是近期网络上比较火的“加密文学”，参考音乐是天工官方提供的一则说唱指南。作为“音乐小白”，我对说唱歌曲中的Verse、Flow等专业术语了解并不多，但能听出来这个AI嘴皮子确实挺快（Doge）。

如果不想选择现有的歌词，可以通过AI生成歌词功能，让AI为你续写。以下是我用AI生成的关于“不想上班”的文案，基于“土味神曲”《5:20AM》生成一首新歌：

▲AI创作土摇版歌曲（来源：智东西）

方言歌曲生成能力方面，智东西选取了陈奕迅经典粤语歌《富士山下》的歌词，以周杰伦的《青花瓷》作为参考曲目输入，生成了这首具有国风特色的青花瓷版《富士山下》：

▲青花瓷版富士山下（来源：智东西）

如此逼真的人声“以假乱真”能力，以及高度还原音乐风格等各种环节的可控性，天工SkyMusic是如何做到的？

据了解，现有AI音乐大模型企业普遍没有公开自己的技术路径，因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技术路径探索上做了非常多的尝试，花费了大量研发资源，最终摸索出下图这条路：

▲天工SkyMusic技术原理图（图源：昆仑万维）

在AI音乐生成领域，有两大技术路径，符号派与大模型派。天工SkyMusic选择了难度更大、效果更好的大模型音乐音频生成路线。

在音频生成路径上，又有三个细分领域：Song、BGM、Speech。过去很多AI音乐研究都集中在无人声的BGM领域，有人声的Song赛道几乎没有好的解决方案。而天工SkyMusic，就是在Song领域取得了极大突破，大幅提高了AI音乐生成技术在Song领域的模型表现，开创了音频生成大模型的成功案例。

具体来说，天工SkyMusic采用与Sora类似的模型架构，包含三大核心模块——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer负责谱曲，学习Music Patches的上下文依赖关系，同时完成音乐可控性；DiT负责演唱，通过LDM（Latent Diffusion Model）让Music Patches被还原成高质量音频。

从上述案例及跟Suno V3的横评中可以看出，相比海外其他AI音乐大模型，天工SkyMusic在AI人声合成的细腻度、可识别度上表现优秀，咬字发音，并且支持粤语、成都话等方言语种。

虽然尚处于起步阶段，但天工SkyMusic已经让很多用户感受到了音乐创作的乐趣。同时，昆仑万维选择将宝贵的技术架构公开，也体现了其对开源社区生态、产业共同发展的重视。

三、构建六大AI业务矩阵，国内首推AI搜索、AI音乐产品

大模型狂飙500天，如何将其能力落地到应用产品仍是困扰众多AI厂商的难题。大模型杀手级应用何时出现？

昆仑万维董事长兼CEO方汉告诉智东西，C端+免费可能成为大模型落地的主要路径。在互联网时代，美国的谷歌、微软，国内的百度、阿里等都是靠这个逻辑成为互联网巨头，同样的道理也将延伸到大模型时代。

一方面，C端用户上限高达80亿；另一方面，订阅模式门槛高，用户接受程度相对较低。而要做到免费，AI UGC（用户生产内容）平台是一个好的商业模式。

根据风投机构a16z上月发布的生成式AI产品Top 100报告，ChatGPT、Gemini等通用内容生产应用仍占据消费级AI应用大头。与6个月前的排名相比，有两个新类别首次进入排行：音乐和生产力。

Suno是唯一进入排行的音乐生成产品，这表明音乐生产工具逐渐闯入消费者视野，成为下一个有潜力的C端应用落地路径。而生产力类别上榜7款产品，包括写作、视频摘要、搜索引擎、文章总结等领域。

这与昆仑万维的产品布局路径不谋而合。

2023年4月，昆仑万维提出“All in AGI和AIGC”战略，不局限于单一的产品或技术，而是构建一个完整的AI生态系统，逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵。

其中，AI大模型和AI搜索作为底座，是所有AIGC能力的基础，音乐、视频、社交、游戏等方向则是昆仑万维在AGI道路上的探索，体现了其AI UGC平台商业模式。

2023年8月，昆仑万维推出国内第一款AI搜索产品——“天工AI搜索”，深度融合AI大模型能力，通过人性化、智能化的方式，为用户提供快速、可靠的交互式搜索服务，助推传统搜索跨越式迈入AI时代。

本月初，昆仑万维推出国内第一款AI音乐生成产品——“天工SkyMusic”，采用音乐音频领域类Sora模型架构，支持生成80秒44100Hz采样率双声道立体声歌曲，降低了音乐创作门槛，人人都可以用音乐来表达情感。

昆仑万维为何能够在国内市场两次首发国内第一款AI细分应用创意新品？

这离不开其前瞻性的战略布局、深厚的技术积累、强大的研发实力以及对市场需求的敏锐洞察。

昆仑万维从2020年开始布局AIGC和大模型领域，至今已积累近四年的相关工程研发经验，且研发投入巨大。据其2023年第三季度报告，公司前三季度研发费用达到6.2亿元，同比增长28.18%。同时，公司十分重视开源生态，天工大模型在开发过程中也得到了开源社区上百位AI科学家的助力。

此外，昆仑万维对市场需求有着敏锐的洞察力，看到了AI技术在搜索引擎、音乐创作等场景的巨大潜力。自2023年4月发布天工大模型之后，团队就开始了大模型与搜索引擎的融合尝试，并于同年8月推出中国首款AI搜索产品——天工AI搜索。天工SkyMusic则体现了昆仑天工探索研究的一个重要方向——情感AGI。

结语：All in AGI与AIGC，昆仑万维交出最新答卷

随着天工3.0大模型的开源公测，我们见证了昆仑万维AI技术的又一里程碑。

天工3.0以其4000亿参数的MoE架构，不仅在逻辑推理、语义理解等核心能力上实现了飞跃，更在多模态领域展现了其强大的应用潜力。天工SkyMusic的成功推出，更是将音乐创作的门槛降至新的低点，让每个人都能轻松玩音乐。

昆仑万维“All in AGI与AIGC”的战略布局，在展现了对未来技术趋势前瞻性的同时，彰显了其在AI领域的雄心壮志。我们期待看到更多优秀的国产大模型及AIGC产品，通过在迈向AGI的道路上各种创新探索，为更多行业及人们日常生活带来改变。

天工3.0发布：探索4000亿参数的MoE模型，音乐生成的新纪元

一、全球最大开源MoE模型，4000亿参数、4大核心能力升级

二、国内首个音乐AIGC SOTA，秒级生成80秒歌曲、人声“以假乱真”

三、构建六大AI业务矩阵，国内首推AI搜索、AI音乐产品

结语：All in AGI与AIGC，昆仑万维交出最新答卷

热门阅读

推荐阅读