开源与闭源：谁将成为未来的主导者？

发表时间: 2024-11-08 10:40

文丨海中天

在科技界，开源与闭源之争一直没有停过，现在连AI也存在同样的争执。

无论是OpenAI的ChatGPT还是Anthropic开发的Claude，它们都是闭源模型，创作者控制着访问条款，而且它们给出一个无法反驳的理由：“为了安全。”与闭源模型相对的是开源模型，开发者可以自由下载，自由修改。

非盈利组织Epoch AI在一份报告中指出，目前的开源模型大约比闭源模型滞后一年。请注意，一些顶级开源模型的性能并不比顶级闭源模型差多少，只是发布的时间可能滞后一些。

例如，7月份Meta发布Llama 3.1 405B模型，它花了大约16个月才追上GPT-4。Llama 4将会开源，照预计，它与OpenAI的差距会进一步缩小。

Epoch AI分析了自2018年以来发布的几百个模型，它们按技术标准评估了顶级模型的性能，也就是制定一套测试标准，测试AI的能力，比如让AI解答数学题、回答普通知识性问题、进行逻辑推理。不只如此，Epoch AI还会观察模型训练消耗了多少算力。

开源与闭源的界线在哪里

虽然Meta宣称Llama是开源模型，但按照Open Source Initiative最新发布的标准，Llama并不能算是严格的开源模型。

按照新标准，企业不只要分享模型本身，还要分享训练时所用的代码和数据。Meta公开了“权重”，也就是一连串数字，开发者可以下载并修改模型，但Meta并没有公开训练数据和训练代码。

在下载Meta模型之前，用户必须先接受“Acceptable Use Policy”条款，它禁止用户将模型用于军事及其它一些违法活动。条款实际上作用有限，因为一旦模型被下载，即使用来违法，Meta也很难执行到位。

Meta并不认同Open Source Initiative的新定义。一位Meta新闻发言人在声明中表示：“目前并没有单一的开源AI定义，定义什么是开源AI也是一件很难的事，因为今天的AI模型正在快速进化，之前的定义并没有将这种复杂性考虑进去。”

Meta还说：“我们的Llama是免费开放的，之所以设定授权、制定Acceptable Use Policy条款，主要是通过一些限制确保安全。我们会继续和Open Source Initiative及其它行业组织合作，不管技术定义如何，都要努力让AI变得更平易近人，让它以负责任的形式免费获得。”

大多人认为，开源AI模型是有益的，因为它可以让更多人获得新技术，可以刺激创新，增强竞争。

英国智库Demos的数字政策主管Elizabeth Seger认为：“对于开源社区来说有一件事相当重要，那就是让更广泛、地理上更宽广、更多元的社区参与到AI开发中来。这些开源社区不像科技巨头那么资源丰富，用更少的资源做更多的事，这点相当关键。”

开源容易滋生安全问题

开源模型还可以增强透明度、增强责任感。

Hugging Face公司为AI开发者提供托管服务，开发者可以将模型存放在Hugging Face平台，当中许多都是开源模型。Hugging Face公司的高管Yacine Jernite说：“任何模型如果想成为社会的基本模型，都应该有一个开源版本，这样我们才能知道问题出自哪里。”

例如Stable Diffusion 2，它是一个开源图片生成模型，研究人员可以深入检查模型的训练数据，如果发现存在偏见或者侵权，研究人员可以及时反馈，如果是OpenAI的DALL-E闭源模型，发现问题并反馈就没有那么容易了。

当然，和以前的开源技术一样，开源模型也会带来风险。恶人可以用开源AI模型作恶，比如制作儿童类性材料。

AI模型的竞争，从更高层面上看是国家竞争，所以美英大打安全牌完全可以理解。

几天前Meta正式宣布，将向美国政府机构开放Llama模型，洛克希德-马丁公司、Anduril和Palantir等私企也可以使用。美国政府和企业都认为，美国必须在开源AI领域保持领导地位，这样不只对经济有益，对安全也有益。

除了开源模型带来的外部挑战，闭源AI模型也有自己的问题。没错，闭源更安全，因为访问闭源模型受到开发者的控制，但同时它也更加隐晦，更加不透明。第三方无法窥测训练数据，出于隐私考虑，机构也会尽力避开闭源模型。

看起来闭源AI可以阻止作恶者滥用，但精明的开发者可以“越狱”，绕开防火墙。

开源模型给监管机构带来新挑战

在美国，闭源模型发布前会接受AISI（U.S. AI Safety Institute）的测试，但模型的权限主要还是掌握在私企手中。今年8月，AISI与Anthropic签署正式协议，双方将在AI安全研究、测试、评估领域展开合作。

由于开源模型没有中心机构管理，所以想监管开源模型难度很大。到底监管者应该如何应对？取决于开源模型与闭源模型的差距。

英国智库Demos的数字政策主管Elizabeth Seger说：“如果二者的差距不断扩大，当我们谈论前端AI安全时，没有必要太在意开源生态系统，因为我们看到的风险会先在闭源系统中出现，监管起来就会容易很多。如果差距变小，那就要更谨慎一些，如何监管开源模型研发？何时介入？都要更谨慎一些。”

不管是OpenAI还是Anthropic，它们的主要业务模式是向用户出售访问权限。

7月份，Meta CEO扎克伯格在公开信中表示：“Meta与其它闭源模型提供商有一个最大的区别，那就是向用户出售AI模型访问权限并不是我们的业务模式。未来Llama将会成为行业最先进的模型，但在此之前，Llama已经是开源、可修改、成本效益的领导者。”

Hugging Face公司的高管Yacine Jernite指出，评估AI系统的能力并没有那么简单，有很多事可以用开源模型做，用闭源模型却不能做。未来，开源模型可以适配更广泛的应用场景，在执行特定任务时，效果可能会比闭源模型更好。

沃顿商学院教授Ethan Mollick认为，如果AI没有大的进步，它可能也需要多年才能融入我们的世界；如果新能力以稳定速度添加到AI系统，监管的复杂性也会随之增加。10月份Anthropic曾介绍一项新功能，AI模型居然可以控制计算机，由此可以看出，未来的AI世界如何监管是个难题。

OpenAI对开源的态度

如果说Meta是开源AI的倡导者，哪怕不是完全开源，它至少在朝这个方向前进，那OpenAI则是闭源派的代表。

OpenAI联合创始人 Ilya Sutskever在谈到开源问题时强调：“我们离构建AI越来越近，少一点开源是有意义的。OpenAI也讲开放，意思是AI构建之后应该让每一个人受益，但不分享技术是完全OK的。”

在Ilya Sutskever看来，AI的推理能力正在不断提升，闭源、设定门槛完全合理。现在已经有一些AI能处理复杂任务，监管已经是一个难题，闭源可以降低监管难度。

在未来一段时间内，许多企业仍然会向公众公开一部分模型，但公开是受限的，至于那些强大的技术，它们不会开放，反而会保密。

最近，有人问OpenAI创始人Sam Altman：“近年来OpenAI从更开放变得更封闭，你能说说转变的背后原因吗？一方面是开放开源，另一方面是技术被更多人接触带来风险，你们是如何权衡的？”

Sam Altman回答称，开源在生态系统中扮演着重要角色，全球已经有很好的开源模型。他说：“强大、易用的API和服务在全球扮演重要角色，鉴于我们所擅长的，我们看到一种更简易的方法，它可以达到我们想要的安全标准。用户从我们的服务中获得价值，我们为此感到自豪。”

很显然，Sam Altman比较喜欢闭源，但他并没有将开源之路完全堵死，他说：“希望未来能开放更多技术。”

2019年11月，OpenAI开放GPT-2 A代码，但最新的GPT-4o却没有开放。

现在的闭源模型优于开源模型，OpenAI当然可以不开放，如果哪天闭源模型被超越，恐怕OpenAI也会被迫低头，走上开源之路。

Meta首席科学家Yann LeCun说：“当OpenAI开发GPT-3时，我们开发了OPT-3，它同样强大，但完全开源。OpenAI的GPT-3从来没有开源过。”他认为闭源会限制创新和协作。

Yann LeCun称，Meta之所以开源，主要是因为它们坚信开源平台更强大，更安全，他坚信在开源AI与闭源AI的争斗中，最终的赢家会是开源AI。

你觉得开源会赢，还是闭源会赢？

开源与闭源：谁将成为未来的主导者？

热门阅读

推荐阅读