机器之心报道
编辑:Panda、张倩
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。
在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。
众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。
不过,对于后训练到底要怎么做,哪些细节对模型性能影响较大,目前还没有太多系统的资料可以参考,因为这都是各家的商业机密。
刚刚,曾经重新定义「开源」并发布了史上首个 100% 开源大模型的艾伦人工智能研究所(Ai2)站出来打破了沉默。他们不仅开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 ——Tülu 3 8B 和 70B(未来还会有 405B 版本),还在技术报告中公布了详细的后训练方法。
Ai2 研究科学家 Nathan Lambert(论文一作)的推文
这份 70 多页的技术报告可以说诚意满满,非常值得详细阅读:
Tülu 3 发布后,社区反响热烈,甚至有用户表示测试后发现其表现比 GPT-4o 还好。
另外,Nathan Lambert 还暗示未来可能基于 Qwen 来训练 Tülu 模型。
机器之心也简单测试了下 Tülu。首先,数 Strawberry 中 r 数量的问题毫无意外地出错了,至于其编写的笑话嘛,好像也不好笑。
本地部署 AI 模型的工具 Ollama 也第一时间宣布已经支持该模型。
机器之心也简单通过 Ollama 和 Obsidian 的插件简单体验了一下 8B 的本地版本,看起来效果还不错,速度也很快。
不过,比模型性能更值得关注的或许还是 Tülu 3 的后训练方案。在这套方案的启发下,众多研究者有望在大模型的后训练阶段进行更多尝试,延续大模型的 Scaling Law。
首个发布后训练详情的开源模型
在提升模型性能方面,后训练的作用越来越大,具体包括微调和 RLHF 等。此前,OpenAI、 Anthropic、Meta 和谷歌等大公司已经大幅提升了其后训练方法的复杂度,具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此,这些模型的通用性能和专业能力都非常强。但遗憾的是,他们都没有透明地公开他们的训练数据和训练配方。
到目前为止,开源后训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 排行榜上,前 50 名(截至 2024 年 11 月 20 日)中没有任何一个模型发布了其后训练数据。即使是主要的开放权重模型也不会发布任何数据或用于实现这种后训练的配方细节。
于是,Ai2 似乎看不下去了,决定开源一切!
Tülu 3 模型之外,Ai2 还发布了所有的数据、数据混合方法、配方、代码、基础设施和评估框架!
下表展示了 Ai2 开源的模型、数据集和代码:
Ai2 表示,Tülu 3 突破了后训练研究的界限,缩小了开放和封闭微调配方之间的性能差距。
为此,他们创建了新的数据集和新的训练流程。他们还提出了直接使用强化学习在可验证问题上训练的新方法,以及使用模型自己的生成结果创建高性能偏好数据的新方法。
加上更多优化细节,得到的 Tülu 3 系列模型明显优于同等规模的其它模型。
8B 模型在各基准上的表现
70B 模型在各基准上的表现
Tülu 3 是如何炼成的?
Ai2 在预训练语言模型的基础上,通过四个阶段的后训练方法生成 Tülu 3 模型(见图 1)。这套训练流程结合了强化学习中的新算法改进、尖端基础设施和严格的实验,以便在各个训练阶段整理数据并优化数据组合、方法和参数。
这些阶段如下:
Tülu 3 pipeline 的主要贡献在于数据、方法、基础设施的改进和严格的评估。其中的关键要素包括:
Tülu 3 的表现如何?
为了评估 Tülu 3 以及其它模型,Ai2 设计了一套评估框架,其中包含一个用于可重复评估的开放评估工具包、一套用于评估指令微调模型的核心技能的套件(具有分立的开发和留存评估),以及一组推荐设置(基于 Ai2 对各种模型的实验)——Ai2 称之为 Tülu 3 Evaluation Regime。
除了评估最终模型,该框架还是一个开放的评估工具套件,旨在通过精心挑选的评估套件和净化工具来引导开发进度。
下面展示了一些主要的评估结果。可以看到,同等规模性,在这些基准上,Tülu 3 的表现非常出色,其中 70B 版本的平均性能甚至可与 Claude 3.5 Haiku 比肩。
此外,Ai2 还提出了两个新的评估基准:IFEval-OOD 和 HREF。
IFEval-OOD 的目标是测试 LLM 遵从精确指令的能力,以及它们是否能够遵从超出 IFEval 中包含的 25 个约束的指令约束。IFEval-OOD 包含 6 大类 52 个约束。
HREF 的全称是 Human Reference-guided Evaluation of instruction Following,即人类偏好指导的指令遵从评估,其目标是自动评估语言模型遵从指令的能力。HREF 专注于语言模型通常训练的 11 个指令遵从任务,即头脑风暴、开放式 QA、封闭式 QA、提取、生成、重写、总结、分类、数值推理、多文档合成和事实核查。
下表给出了 Tülu 3 与对比模型在这两个新基准以及其它已有基准上的表现,具体涉及的领域包括知识调用、推理、数学、编程和指令遵从。需要注意,这些都是 Unseen 基准,即这些任务是模型训练过程中未见过的。
安全性方面,以下两表展示了 Tülu 3 与对比模型在两个基准上的安全分数。整体而言,同等规模下,Tülu 3 相较于其它开源模型更有优势。
最后必须说明,长达 73 页的 Tülu 3 技术报告中还包含大量本文并未提及的细节,感兴趣的读者千万不要错过。
https://allenai.org/blog/tulu-3?includeDrafts
https://x.com/natolambert/status/1859643351441535345
https://www.interconnects.ai/p/tulu-3