腾讯宣布其与Sora技术匹配的大模型混元文生图全面开源

发表时间: 2024-05-14 14:59

新京报贝壳财经讯(记者 白金蕾)5月14日,腾讯旗下混元文生图大模型(下称:混元DiT,Scalable Diffusion Models with Transformers)宣布全面升级并对外开源。腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面,一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白;另一方面混元DiT为全面开放,与现网版本完全一致。

据卢清林介绍,之所以做这次开源尝试,是由于目前开源社区中技术快速迭代,缺乏先进、成熟的DiT架构可以开源利用。此外,现有模型对中文理解较差,中文应用场景受限。此次开源的混元DiT采用了与Sora同样的背后关键技术——DiT架构,还支持256字符中文理解,全链路自研,也是一款原生中文模型。

目前腾讯混元文生图大模型已在 Hugging Face平台及 Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

编辑 李铮

校对 王心