Yandex发布大语言模型训练工具YaFSDP并宣布开源

发表时间: 2024-06-11 18:03

IT之家 6 月 11 日消息,俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP,号称与现有工具相比速度最高可提升 26%。

据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。

例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。IT之家附官方数据一览:

模型gpu-countseq-lennum-ckpt-layersspeedup
Llama 2 7B64204809.92%
Llama 2 7B64409603.43%
Llama 2 7B64819202.68%
Llama 2 7B128204809.57%
Llama 2 7B128409602.42%
Llama 2 7B128819202.32%
Llama 2 13B1282048012.10%
Llama 2 13B128409603.49%
Llama 2 34B1282048020.70%
Llama 2 34B2562048021.99%
Llama 2 34B256409658.35%
Llama 2 70B25620481021.48%
Llama 2 70B2564096507.17%
Llama 3 8B642048011.91%
Llama 3 8B64409607.86%
Llama 3 70B25620482026.60%

Yandex 表示,通过优化 GPU 使用率,YaFSDP 可以为开发者和公司节省大量资金 —— 每月可能节省数十万美元。

Yandex 的资深开发人员、YaFSDP 团队成员之一 Mikhail Khruschev 还提到,“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的通用性” 。

参考资料: