马斯克开源行动的背后动机是什么？

发表时间: 2024-03-20 23:31

出品｜虎嗅科技组

作者｜齐健

编辑｜王一鹏

头图｜视觉中国

3月11日周一，马斯克发推文说要在一周内开源Grok。众多开发者等着盼着过了一周，到周日Grok才正式将代码推到了开源社区。

开源的Grok-1是一个基于Transformer架构的自回归模型，参数规模达到3140亿参数，是目前参数量最大的开源模型之一，Grok-1与主流开源大模型一样免费可商用。

在开源之前，Grok最大的亮点是直接调用X中的实时数据和“幽默”。

但开源版本的Grok已经打了折扣——在开发者手里，Grok不可能调取X的数据。从本次开源的信息来看，2023年11月Grok上线以后调用过的X数据，也没有被作为训练数据沉淀到Grok中。

除开源打折外，Grok本身的性能也并不占优。刚上线时，Grok的评分就远落后于当时的Palm 2、Claude 2和GPT-4。最典型的问题是，其支持的上下文长度只有8192个token。

Grok取得的关注（上线3天在GitHub收获3.9万Star）,似乎很大一部分都来自马斯克本身的流量热度。开源Grok被马斯克说成是为了践行“AI造福全人类”的目标，但在与OpenAI的官司期间开源，有观点认为，Grok 开源的目的之一，就是为马斯克起诉、声讨OpenAI提供的事实依据——这是一场由马斯克亲自操盘的“AI 大秀”。

开源Grok是作秀？

开源是一场让企业与开发者跳双人舞的“社区游戏”，但Grok这个“舞伴”，完全不是普通开发者所能掌控的。

在Grok-1之前，很多开源大语言模型（LLM）的参数量只有70亿，LLaMA-2开源的最大参数量也只有700亿。

而马斯克直接开源了自家尺寸最大的3140亿参数模型，据估计Grok-1需要约628 GB GPU内存才能勉强运行，普通开发者几乎不可能在本地尝试Grok-1，对于云服务用户来说，至少需要8张80GB显存的A100或H100 GPU。

在Grok的GitHub讨论区有用户留言表示：谷歌云上80GB A100的4卡服务器每小时运行成本是20美元，这不适合我。（GCP instance with 4 A100 80GB; it cost around per hour; this is not for me LOL.）

Grok开源之后，笔者也加入了一个关于Grok的开源讨论群，但到了第二天，群内的讨论焦点，已经转向了只有40亿参数的Qwen-1.5。

不过，Grok-1也支持8bit量化，一些开发者认为，如果模型可以量化到160GB，“可玩性”会大幅提高。算力不太宽裕的开发者，可以等到官方或者其他开发者发布量化版本后再尝试。

至少从短期来看，开源Grok对普通开发者并不是很友好。那么开源对于Grok本身来说，有什么帮助呢？从传统的开源视角来看，也很难说。

一些人认为开源模型可以汇聚更多开发者力量，帮助优化模型。但今天的开源AI与传统的开源软件逻辑几乎完全不同。代码开源对于AI大模型的促进作用，并不像过去的开源软件那样明显。

传统软件开发过程中，一款系统、工具或软件开源以后，开发者可以基于共享代码直接修复bug，优化程序。然而今天的多数AI模型本身就是一个很大的黑盒，要从中找到问题，并对模型的底层算法进行训练、调优并不容易。

“AI大模型训练是一个很‘集中’的工作。”生数科技CEO唐家渝表示，AI大模型很难通过“分布式”的开源来收集开发者的“贡献”。闭源反而是更能集中包括智力的资源、算力的资源，去做不断地迭代的。

一些开发者认为，对于开源AI模型的作者来说，最大的好处是打响知名度——以Grok目前的模型能力来看，只有吸引一批开发者、公司、机构对模型进行试用、开发，逐步建立起对模型的认可，才能稳固其在AI大模型领域的“江湖地位”，提高这款既不太新，也不太强的AI大模型的影响力。

闭源Grok把路走窄了？

从AI行业角度来看，Grok的受关注度不高。由于模型跑分不高，过去几个月中发布的AI大模型，在对比评测数据集得分时，几乎很少有人对标Grok。

从业务视角来看，Grok在X平台中的表现也不理想。

Grok上线到X后，与ChatGPT Plus一样采取订阅制，但ChatGPT的GPT-3.5免费开放，而Grok则一刀切，只提供给X Premium会员。X Premium会员的订阅费用是16美元包月，168美元包年。

由于一开始就设置了付费门槛，Grok没有吃到X庞大用户基础的红利。

数据网站SimilarWeb的统计显示，2024年2月，x.com的总访问量为1.04亿次，平均访问时长只有24秒。对比其他几家主流闭源AI的同期流量，chat.openai.com访问量为15.5亿次，平均访问时长是7分33秒；gemini.google.com访问量为3.161亿次，平均访问时长6分22秒；相对小众一些的claude.ai访问量为2086万次，平均访问时间为5分48秒。

X与三款AI对话网站流量数据来源|SimilarWeb

虽然影响网站流量的因素很多，且x.com网站的受众、属性与其他几家也有明显差异，直接对比流量并不能完全说明问题，但访问时长的巨大差异，也侧面反映了X用户大概率没有跟付费的Grok聊太多。

马斯克最早给Grok的战略定位，可能更多是考虑促进X的Premium会员销售，以补贴X的广告收入。然而，如今Grok在X中发挥的作用很可能并没有达到马斯克的预期。与其一直在X Premium中“躺平”，开源Grok或许能给马斯克和x.AI打开新局面。

开源激起千层浪

在AI大模型热潮中，靠开源大模型树立行业地位的公司并不少见，包括MistralAI以及国内的智谱，阿里的通义千问等。

深陷元宇宙泥潭的Meta更是依靠开源LLaMA模型打了一次翻身仗。在2023年中，全球市场最大的变数是AI大模型，而Meta最大的变数就是开源了一款AI大模型。

通过开源LLaMA，Meta展现了其在大型语言模型（LLM）领域的技术实力和开放创新的姿态，这在一定程度上帮助公司缓解了市场对其元宇宙战略的担忧。由此Meta的股价也在一年内翻了几番，市值从3155亿美元涨到1.2万亿美元，涨出了19个京东。

LLaMA的开源，特别是其成本效益高的特点，对Meta而言具有战略意义。与Google和Microsoft等竞争对手的AI大模型相比，LLaMA的小巧和高性能使得Meta能够以较低成本部署高效的AI模型。这不仅提高了AI技术的普及率，也为Meta未来在各种应用和用例上的广泛部署提供了可能。有分析人士认为，基于Meta的业务范围，从聊天机器人到游戏，再到未来的生产力软件，生成式AI预计将带动一个价值超过500亿美元的市场。

虽然LLaMA最初的开源一直被业界传说是无意间的“泄露”，但其最终的结果却为Meta在AI大模型行业奠定了技术和市场的领导地位。

“开源”的战略逻辑，对于马斯克来说并不陌生。

2014年，马斯克开放了特斯拉的350多项电动车专利技术。当时马斯克在接受采访时表示，“特斯拉的首要目标是加速全世界向可持续能源转变”。事实证明，马斯克大公无私的“开源”，在后来使得他自己成为了最大的受益者。

特斯拉开放专利的做法，一举将全球汽车市场的水搅浑。大量新能源车企借助特斯拉的专利异军突起，直接激活了整个新能源汽车市场。而特斯拉作为行业领军企业，则借助长期积累的行业口碑和技术开发实力，持续保持了行业的领先地位。

虽然开源Grok大概不会像特斯拉开放专利那一石激起千层浪，改变整个AI行业的格局，但对于目前的x.AI来说，应该也会产生一些积极的影响。

正在改变与想要改变世界的人，都在虎嗅APP

马斯克开源行动的背后动机是什么？

热门阅读

推荐阅读