作者 | 梁昌均
编辑 | 杨锦
运营编辑|王一晴
在开源闭源到底谁会落后的争议声中,Meta——这家坚持开源的社交巨头,又默默放出了最新一代的开源大模型Llama3。
美当地时间4月18日,Meta在官网上发布了两款开源大模型,参数分别达到80亿和700亿,是目前同体量下性能最好的开源模型。
马斯克对此评价称“还不错”。Meta透露,未来几个月内还会推出Llama3更大参数版本的开源模型。
Meta CEO扎克伯格在最新采访中确认,4050亿参数模型仍在训练,预计今年晚些时候推出,并称Meta的目标是要超过所有人。这意味着,Meta与OpenAI的开源闭源之战才刚刚打响。
2.4万张GPU训练,碾压谷歌
此次发布的Llama3大模型,相较于上一代在编码、推理等性能上取得了显著进步。Meta公布的九项行业基准测试评测结果显示,Llama3-8B参数版本几乎全面碾压谷歌的Gemma和Mistral的70亿模型。
Llama3-70B参数版本则在7项评测中超过闭源的谷歌Gemini两个版本模型,以及Mistral和Claude 3中杯模型,在GPQA(测试模型回答通用问题表现)和MATH(评估模型解决高级数学问题能力)上不及谷歌目前最强大的大模型,但优于Claude 3中杯模型。
此外,在Meta组织的人类反馈评分中,Llama 3-70B打败了GPT-3.5等多款模型。该测试包含1800个测试项,覆盖12个主要的应用场景,包括文摘总结、创意写作、角色扮演、逻辑推理、编程分类等,意在提升模型在现实应用场景下的表现。
Llama 3模型能力的提升,得益于模型架构、预训练数据的选择、预训练过程的扩展,以及对模型进行指令微调的打磨。
它采用15T token的数据训练,是Llama 2数据集的7倍多,代码数据量也增加了四倍。并在含有2.4万个英伟达GPU集群上训练,训练效率提高3倍。
Meta表示,Llama 3预训练数据集超过5%来自高质量的非英语数据,能更好满足各国用户、不同语言背景的使用需求。
此外,Llama 3在安全方面也有重大突破,开发了新版的信任和安全工具,相比Llama 2,进一步降低了误拒率,增强了模型的一致性。
Meta目前还在研发Llama 3超400B的参数模型,有望与GPT-4一较高下。
Llama 3很快将在亚马逊、谷歌、微软、英伟达等云厂商和大模型API提供商等平台推出。未来数月,Meta计划推出一系列具备全新功能的模型,包括多模态、支持多语言对话、扩展上下文窗口的长度,以及全面提升的综合性能。
基于Llama 3,Meta发布了AI助手 Meta AI。扎克伯格表示,MetaAI将成为人们可以免费使用的最智能的AI助手。
开源还是闭源?
Llama3的开源将进一步深刻影响着全球AI大模型的格局,不仅巩固了Meta在开源阵营当中的地位,同时也增强了开源模型与闭源模型竞争的力量。
越来越多的公司开始争夺全球最强开源模型。不久前,马斯克旗下的xAI开源全球规模最大的开源模型,参数高达3140亿。美国AI独角兽Databricks最近开源了参数1320亿的模型,当时号称是全球最强的开源大模型,但现在可能已被Llama3-70B模型夺走。
国内同样有越来越多的公司选择开源,包括阿里、360以及智谱AI、百川智能、零一万物等,并在参数规模上不断突破。早前不久,昆仑万维推出4000亿参数的“天工3.0”基座开源大模型,成为全球最大的开源MoE(混合专家)大模型。
不过,在最新的采访中,扎克伯格表示,Meta的目标不是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。他提到,今年晚些时候发布的Llama 3-400B将在许多基准测试中领先,并已经在考虑Llama 4和5。
英伟达高级科学家Jim Fan认为,Llama 3-400B以上的版本其将成为某种“分水岭”,开源社区将能用上GPT-4级别的模型。这意味着,Meta与OpenAI将在开源闭源模型上开启更大的竞争。
近日,开源和闭源引发不少争议。李彦宏认为,开源会越来越落后,闭源会持续领先,且闭源才有真正的商业模式。
随后,周鸿祎直言“网上有些名人胡说八道,大家别被忽悠,连说这话的公司自己都借助了开源的力量才成长到今天”。
他认为,开源社区聚集的工程师和科学家的数量是闭源的数百倍,所以一年(时间)就已经超过GPT-3.5,未来一两年内,开源很有可能会达到或超过闭源的水平。
扎克伯格同样强调了开源的重要性,认为它对社区和人类都有好处,可以推动AI广泛应用,是防范或解决AI垄断的重要方式。
“未来AI垄断可能会像人工智能的广泛应用一样危险,如果一个机构拥有的人工智能比其他机构的人工智能强大得多,那可能也很糟糕。”
在他看来,缓解这种情况的最佳方法是拥有优秀的开源人工智能,使其成为标准。
扎克伯格认为,AI可能会在大多数方面超越人类,AGI是一个渐进的过程。
目前,Meta正在储备更多的AI弹药,计划今年底前向英伟达购买35万个H100 GPU芯片,从而使GPU总量达到约60万个。这意味着,Meta在这些芯片上的支出将达到100亿美元。
如何收回这些投入,对Meta来说同样是挑战。
除了将AI应用到自身社交产品,从而推动原有的核心业务广告业务增长外,扎克伯格还提到了开源模型的另一条赚钱路径。比如此前开源的Llama 2基本与所有主要的云公司都有交易,Llama2通过它们的云上托管提供服务,但Meta对使用它的公司也有限制。
“随着我们发布的模型越来越大,如果微软或亚马逊拿走并转售它且从中赚钱,那么我们应该从中获得一些收入。”扎克伯格说。
由于免费使用,开源往往被认为难以赚到钱。扎克伯格或许为开源提供了一种可能的赚钱方式,前提是开源的模型要足够强大。但对许多其它开源模型来说,它们还缺乏足够的议价能力。