揭秘腾讯大模型开源之路：经验与价值共享

发表时间: 2024-11-07 19:59

21世纪经济报道记者白杨北京报道

近日，HuggingFace、Github等开源社区又迎来大模型新品上架。

11月5日，腾讯宣布开源“Hunyuan-Large”以及“ Hunyuan3D-1.0”两个大模型。前者是大语言模型，总参数量为389B，这也是目前开源领域参数规模最大的MoE模型；后者则是业界首个同时支持文字、图像生成3D的开源大模型。

今年，业界关于大模型要不要开源曾出现过意见分歧。百度创始人李彦宏明确表示，大模型开源没有闭源好，开源大模型会越来越落后。

但也有一众行业人士支持开源，认为许多技术的发展都得益于开源，这有利于整个行业发展。而腾讯，是开源坚定的拥护者。

目前，腾讯已经把开源作为混元大模型的一个战略选择，未来也将持续推出更多模态、更多尺寸的开源模型。

腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉向21世纪经济报道记者表示，腾讯的大模型不会为了开源而开源，而是要把那些已经在业务场景中得到历练和打磨的东西拿出来，所以腾讯开源的大模型都是公司内部在用的模型。

据其透露，腾讯此次开源的是模型参数权重，不涉及数据和代码，下一步，腾讯计划把训练代码也进行开源。

在此次开源的模型上线后，HuggingFace首席科学家Thomas Wolf也对Hunyuan-Large进行了评价，认为该模型有三个亮点：

一是数学表现强劲；二是使用了大量合成数据（在7万亿tokens中，有1.5万亿来自合成数据）；三是深入的专家混合（MoE）训练，包括使用共享专家以及总结了MoE的Scaling Law等。

今年年初，腾讯混元完成了架构升级，从原先的Dense架构升级为MoE架构，并将模型扩展至万亿级参数规模。

MoE架构的核心逻辑是将输入数据分配给最适合处理该数据的专家。所以，这种架构允许模型通过增加专家的数量来扩展，从而提供模型处理特定任务的能力。

更重要的是，MoE架构在处理输入数据时，只要激活少数专家模型，其他大部分专家模型都会原地待命，静待自己擅长的领域到来。

所以，MoE是一种更高效的模型，它在拥有很大参数的同时，只需要很小的实际激活量就可以完成任务，进而显著降低训练和推理成本。比如Hunyuan-Large，总参数量是389B，但它的激活参数量是52B。

康战辉表示，在相同成本下，MoE的效果会优于dnese模型。但他也表示，这并不意味着完全放弃了Dense架构，“在一些比较小的场景，不需要太大的模型参数时，dense模型还是具有一定竞争力的。”

不过，MoE架构也带来了更多的挑战。在Dense架构中，模型变量很少，而MoE架构要考虑专家激活量，比如专家选多大、选几个以及怎么激活，这些就涉及非常多的参数变量。

过去一年半，腾讯投入大量成本，全面探索了MoE架构下大语言模型中专家个数、激活参数量和训练tokens之间的ScalingLaw关系。腾讯这次开源最大的价值，就是把这些必须投入大量成本才能喂出来的经验都开放了出来。

除了总结MoE架构的ScalingLaw之外，腾讯在此次开源模型中还着重强调了合成数据。

康战辉告诉记者，合成数据已经成为大模型的一个共识。“过去的AI训练还是以自然数据为主，但随着模型越来越大，尤其是采用MoE架构后，它的参数可以做的非常大，自然数据已经跟不上模型的增长需求了。”

业界有种说法是，到2026年，自然数据将被大模型全部用完。而解决数据枯竭问题的重要方法，就是使用合成数据。

有预测数据显示，到2030年，人工智能使用的合成数据将超过自然数据，这将大大缓解数据短缺的问题。

康战辉表示，除了从总量角度需要合成数据，在一些特定的训练场景，使用合成数据也是必然趋势。“比如数学数据，如果只有问题和答案，没有解题过程，这种数据就无法用于训练，所以需要通过合成的方式获得解题过程。”

因此，对于大模型训练而言，有些数据是天然缺失的，如果想提升，就只能利用合成数据。康战辉称，腾讯目前对合成数据的应用，就主要侧重于对专项数据的补充。

对于合成数据，业界也有担忧，认为大量使用合成数据训练大模型，可能会导致模型崩溃。对此，康战辉认为，现在我们认为的自然数据，很多也是过去用其他工具合成的数据，所以使用合成数据肯定没问题，关键是看怎么用。

“我认为合成数据最重要的，是要有一套完整的数据获取、评估、清洗链路，进而保证合成数据的质量可控，这样合成数据就能发挥它的价值。”康战辉说。

更多内容请下载21财经APP