Meta重磅发布：旗下性能超越OpenAI的顶尖开源模型揭秘

发表时间: 2024-07-24 11:56

北京时间7月23日晚，Meta发布最新开源模型Llama 3.1，拥有8B（80亿）、70B（700亿）和405B（4050亿）三个参数版本。Meta宣称Llama 3.1 405B可媲美OpenAI和Anthropic旗下最好的闭源模型。

据官方披露，Meta使用了15万亿个Token（字符）的数据，以及1.6万块英伟达H100 GPU来训练Llama 3.1 405B。外界据此估计训练成本高达数亿美元。

Llama 3.1 405B的上下文长度扩展至128K，大致是一本50页书的长度。上下文长度即模型一次能够处理的最大Token数量，长度越大，大模型具备更强的处理复杂对话能力。

Meta介绍，Llama 3.1 405B可用于长文本摘要、多语言会话和编程助手，支持英语、德语、法语等八种语言，不包括中文。此外，Llama 3.1 405B目前仅支持文本操作，Meta发布的一篇论文透露正在开发图像、视频、语音等多模态能力，但尚未准备好发布。

Meta称，实验评估表明，和GPT-4、GPT-4o和Claude 3.5 Sonnet等头部闭源模型比较而言，Llama 3.1 405B在一系列任务上具有竞争力。具体来说，Llama 3.1 405B在多语言、长文本、数学推理等能力上表现较优，而在编程等性能上和顶尖水平有一定差距。

模型能力测试对比。来源：Meta官网

从本周开始，美国用户可通过WhatsApp和meta.ai官网访问体验Llama 3.1 405B，随后该模型将部署到Instagram和Facebook等其他Meta旗下产品。开发者还可以从AWS（亚马逊云）、微软Azure和谷歌云等托管云平台下载使用。

作为开源模型阵营的支持者，Meta CEO扎克伯格发文表示，企业利用开源模型，可以使用自定义数据、按照自身喜好进行训练微调。如此一来，企业掌握了主导权，而不必受制于闭源模型厂商。另外，Llama 3.1 405B的运行成本更低廉，推理成本大约是使用 GPT-4o 等封闭模型的一半。更为关键的是，许多企业需要处理敏感数据，但无法将其通过API接口传输给封闭模型，如果使用Llama则无需担心与Meta共享数据。

扎克伯格还说，开源模型将确保世界各地更多的人获得人工智能带来的好处和机会，“权力不会集中在少数公司手中”。

接受彭博社采访时，扎克伯格透露，Meta已经在开发Llama 4。

采写：南都见习记者杨柳

Meta重磅发布：旗下性能超越OpenAI的顶尖开源模型揭秘

热门阅读

推荐阅读