突然间,“开源”成了人工智能界的最新流行语。Meta 承诺创建开源的通用人工智能,埃隆·马斯克(Elon Musk)正在起诉 OpenAI“不再关心”开源人工智能模型。
与此同时,越来越多的科技领导者和公司正在将自己打造成“开源模范”。
但这里有一个根本问题:人们未能就“开源人工智能”的定义达成一致。
从表面上看,开源人工智能承诺了一个任何人都可以参与技术开发的未来。
这可以加速创新,提高透明度,并让用户对人工智能系统有更大的控制权,而这些系统可能很快就会重塑我们生活的方方面面。
但开源的定义到底是什么?哪些性质决定了人工智能模型是开源的?又有哪些性质让其不再是开源的?
这些答案可能会对这项技术的未来产生重大影响。在科技行业确定一个公认的定义之前,强大的公司可以很容易地改变这个概念以满足自己的需求,它可能会成为巩固当今领先企业主导地位的工具。
挑起这场争论的是开源计划(OSI,Open Source Initiative),它是一家以推行和保护开源为目的的非营利性组织。
该组织成立于 1998 年,是(软件领域)开源定义和协议的主导者。它所制定的很多规则和协议已被全球开发者广泛接受,用于确定一个软件是否可以被视为开源。
现在,该组织已经召集了 70 多名研究人员、律师、政策制定者、活动家和 Meta、谷歌和亚马逊等大型科技公司的代表,试图为开源人工智能提出一个明确的定义。
然而,开源社区充满了形形色色的人和组织,既包括黑客活动人士(以政治目的实施网络攻击的人),也包括财富 500 强公司。
开源计划的执行董事斯特凡诺·马富利(Stefano Maffulli)表示,尽管参与者在总体原则上达成了广泛共识,但越来越明显的是,很多细节很难敲定。
有这么多相互竞争的利益团体参与其中,找到一个让每个人都满意的解决方案,同时确保最大的公司也必须参与其中,这绝非易事。
标准模糊
缺乏一个固定的定义并没有阻止科技公司采用“开源”这个词。
去年 7 月,Meta 向公众免费提供了其所谓“开源”的 Llama 2 模型,它此前也有公开发布人工智能技术的历史。
Meta 负责人工智能、开源和许可的副总法律顾问乔纳森·托雷斯(Jonathan Torres)告诉我们:“我们支持开源计划组织定义开源人工智能的努力,并期待着继续参与他们主导的过程,以造福世界各地的开源社区。”
这与竞争对手 OpenAI 形成了鲜明对比,后者近年来越来越不愿意分享其先进模型的技术细节,理由是出于安全考量。
一位 OpenAI 发言人表示:“我们只有在仔细权衡利益和风险(包括滥用和加速)后,才能开源强大的人工智能模型。”
其他领先的人工智能公司,如 Stability AI 和 Aleph Alpha,也发布了其所谓的开源模型。Hugging Face 拥有一个庞大的免费人工智能模型库。
虽然谷歌对其最强大的模型,如 Gemini 和 PaLM 2 采取了更为封闭的方式,但上个月发布的 Gemma 模型可以自由访问,并旨在对标 Meta 的 Llama 2。不过,该公司将其描述为“开放”而非“开源”。
但对于所有这些模型是否真的可以被描述为开源,人们存在相当大的分歧。首先,Llama 2 和 Gemma 的一些许可会限制用户使用这些模型的方式。
这从根本上违背了传统的开源原则:开源定义的一个关键原则就是禁止基于用例施加任何限制。
即使对于不具备这些条件的模型,标准也是模糊的。开源的概念旨在确保开发人员可以不受限制地使用、研究、修改和共享软件。
马富利说,但人工智能的工作方式有根本上的不同,很多核心概念并不能很好地从软件迁移到人工智能上。
最大的障碍之一是人工智能模型包含了太多“组件”。马富利说,对于软件来说,你只需要修改它的底层源代码。
但对于人工智能模型而言,不同的目标意味着不同的工作量,修改人工智能模型可能需要访问训练好的模型、训练数据、用于预处理这些数据的代码、管理训练过程的代码、模型的底层架构,以及许多更不起眼的细节。
人们需要哪些“组件”来有意义地研究和修改模型,这还有待商榷。马富利说:“我们已经确定了我们希望能够行使的基本自由或基本权利。但如何行使这些权利的机制尚不清楚。”
马富利说,如果人工智能社区想跟软件开发人员一样,从开源中获得同样的好处,那么解决这场争论将是至关重要的。
他说:“拥有一个受到行业大部分人尊重和采用的(定义)可以传达清晰而明确的信息。
有了明确性,合规成本就更低了,摩擦也更小了,人们对同一件事情的理解就一样了。”
到目前为止,最大的症结在于数据。所有主要的人工智能公司都只发布了预训练模型,而没有公布它们的训练数据集。
马富利说,对于那些想对开源人工智能实施更严格定义的人来说,这严重限制了其修改和研究模型的努力,所以它们不能算是开源。
马富利说,其他人认为,对数据的简单描述通常就足以了解一个模型,而且你要做的调整不一定需要从零开始重新训练。
预训练的模型通常会经过微调,在这个过程中,它们会在一个较小的、通常是针对某种应用的数据集上进行部分再训练。
开源人工智能公司 Ainekko 的首席执行官、Apache 软件基金会法律事务副总裁罗曼·沙波什尼克(Roman Shaposhnik)表示,Meta 的 Llama 2 就是一个很好的例子。
虽然 Meta 只发布了一个预训练的模型,但一个蓬勃发展的开发者社区一直在下载和使用它,并分享他们所做的修改。
他说:“人们在各种项目中使用它,围绕它建立了一个完整的生态系统。因此,我们必须给它起个名字。它是半开放的吗?”
参与开源计划讨论的非营利组织 Open Future 的研究主任祖扎娜·瓦尔索(Zuzanna Warso)表示,虽然在技术上可以在没有原始训练数据的情况下修改模型,但限制对关键“组件”的访问并不真正符合开源的精神。
在不知道模型是基于什么信息训练的情况下,人们是否有可能真正行使研究模型的自由,这也是有争议的。
“这是整个过程的一个关键组成部分。”她说,“如果我们关心开放性,我们也应该关心数据的开放性。”
鱼与熊掌兼得
我们必须搞懂一件事,为什么那些以“开源模范”自居的公司不愿意交出训练数据?瓦尔索表示,获得高质量的训练数据是人工智能研究的一个主要瓶颈,也是大公司希望握在自己手里的竞争优势。
与此同时,开源带来了许多好处,公司希望看到这些好处被传递到人工智能领域。
瓦尔索说,从表面上看,“开源”一词对很多人来说都有积极的含义,因此参与所谓的“开放清洗(open washing)”很容易赢得舆论的好感。
这也会对公司的底线产生重大影响。美国哈佛商学院的经济学家最近发现,开源软件使公司能够在高质量的免费软件之上构建产品,而不是自己从零编写,从而为这些公司节省了近 9 万亿美元的开发成本。
瓦尔索说,对于大公司来说,将软件开源,使其可以被其他开发人员重复使用和修改,有助于围绕其产品建立一个强大的生态系统。
典型的例子是谷歌对其安卓移动操作系统的开源,这巩固了其在智能手机革命中的主导地位。
Meta 的马克·扎克伯格(Mark Zuckerberg)在财报电话会议上明确表示了这一动机,他说:“开源软件往往会成为行业标准,当公司使用我们的技术堆栈进行标准化构建时,将新的创新整合到我们的产品中就会变得更容易。”
瓦尔索指出,至关重要的是,开源人工智能似乎在某些地方可能会受到有利的监管待遇。
她指出,欧盟新通过的《人工智能法案》将某些开源项目排除在了更严格的要求之外。
瓦尔索说,总的来说,分享预训练模型的同时却限制对构建模型所需数据的访问,从商业角度来看是有一定道理的。
但她补充道,这确实有点像公司想要鱼和熊掌兼得。如果这一战略有助于巩固大型科技公司已经占据的主导地位,那么很难看出这与开源的基本理念有何契合。
瓦尔索说:“我们认为开放是挑战权力集中的工具之一。如果这个定义有助于挑战权力集中的问题,那么数据问题就变得更加重要了。”
沙波什尼克认为,妥协是可能的。用于训练最大模型的大量数据来自于维基百科或 Common Crawl 等开放存储库,这些存储库从网络上抓取数据并免费共享。
他说,公司可以简单地共享用于训练其模型的开放资源,让人们有可能重新创建一个差不多的数据集,进而更好地研究和理解模型。
非营利人工智能研究组织 EleutherAI 的政策和道德负责人阿维亚·斯科龙(Aviya Skowron)也参与了开源计划主导的讨论。
他表示,对于从互联网上抓取的艺术或写作训练数据是否侵犯了创作者的权利,在这一点上缺乏明确性,可能会在法律上变得十分复杂。这使得开发人员对公开他们的数据持谨慎态度。
法国巴黎理工学院计算机科学教授斯特凡诺·扎奇罗利(Stefano Zacchiroli)也为开源计划推动的开源定义做出了贡献。
他理解实用主义的必要性,其个人观点是,对模型训练数据的完整描述是开源的最低要求,但他也认识到,对制定更严格开源人工智能定义可能缺乏吸引力。
扎奇罗利说,最终,社区需要决定它想要实现什么:“你只想随波逐流,放任市场自然发展,最终看到公司不会从本质上认可‘开源人工智能’这个词?还是想努力推动市场更加开放,为用户提供更多自由度?”
开源有什么意义?
AI Now 研究所联合执行主任莎拉·迈尔斯·韦斯特(Sarah Myers West)表示,无论最终如何定义开源人工智能,它对创造公平的竞争环境能起到多大作用,仍然是一项有争议的话题。
她与人合著了一篇发表于 2023 年 8 月的论文,揭露了许多开源人工智能项目缺乏开放性。
但它也强调,无论模型多么开放,训练尖端人工智能所需的大量数据和计算能力都会给较小的参与者带来更深层次的结构性障碍。
迈尔斯·韦斯特认为,人们希望通过开源人工智能来实现什么,也缺乏明确性。
她问道:“是安全吗?是进行学术研究的能力吗?是试图促进更多的竞争吗?我们需要更准确地了解目标是什么,以及开放一个系统如何改变对目标的追求。”
开源计划组织似乎热衷于避免这些对话。定义草案提到了自主性和透明度是关键优势,但当该组织被要求解释为什么格外看重这些概念时,马富利不愿回答。
该文件还包含一个“范围外问题”的部分,明确表示该定义不会涉及“道德、值得信赖或负责任”的人工智能问题。
马富利说,从历史上看,开源社区一直专注于实现软件的无缝共享,并避免陷入关于该软件应该用于什么的争论中。“这不是我们的工作。”他说。
但瓦尔索说,无论人们几十年来多么努力,这些问题都不能被忽视。她补充道,所谓“技术是中立的,伦理等话题超出讨论范围”的想法是天方夜谭。
她怀疑这是一个不得不维持下去的童话故事,以防止开源社区本就松散的联盟破裂。瓦尔索说:“我认为人们意识到这不是真的(童话),但我们需要这一点共识来向前推进。”
除了开源计划之外,其他人采取了不同的方法。2022 年,一组研究人员推出了负责任的人工智能许可证(RAIL,Responsible AI Licenses),该许可证类似于开源许可证,但包括可以限制特定用例的条款。
创建该许可证的人工智能研究人员丹尼施·康特科特(Danish Contractor)表示,其目标是让开发者防止他们的工作被用于(他们认为的)不合适或不道德的事情。
他说:“作为一名研究人员,我讨厌我的东西被以有害的方式使用。”他并不是唯一一个,他和同事最近在人工智能初创公司 Hugging Face 的模型托管平台上进行了一项分析,发现有 28% 的模型使用了 RAIL 许可。
谷歌在其 Gemma 上附加的许可证也采用了类似的方法。该公司在最近的一篇博客文章中表示,其使用条款列出了被视为“有害”的各种禁止使用案例,这反映了其“负责任地开发人工智能的承诺”。
艾伦人工智能研究所(Allen Institute for AI)也制定了自己的开放许可政策,其 ImpACT 许可证会根据模型和数据的潜在风险限制其重新分发。
开源软件管理公司 Tidelift 的联合创始人兼法律负责人路易斯·维拉(Luis Villa)表示,考虑到人工智能与传统软件的不同,以不同程度的开放性进行一定程度的实验是不可避免的,而且可能对该领域有好处。
但他担心,互不兼容的“开放式”许可证越来越多,可能会抵消使开源如此成功的合作,减缓人工智能的创新和降低透明度,并使较小的参与者更难在彼此的工作基础上创新。
最终,维拉认为,整个社区需要就一个标准团结起来,否则行业参与者就会忽视它,自己决定“开放”的含义。
不过,他并不羡慕开源计划的工作。当它提出开源软件的定义时,它曾有着大把的时间和很少的外部审查。如今,人工智能已成为大企业和监管机构关注的焦点。
但是,如果开源社区不能迅速确定一个定义,其他人就会想出一个适合自己需求的定义。
维拉说:“他们将填补这一空白。马克·扎克伯格将告诉我们他认为的‘开放’意味着什么,他的声音很大,会被很多人听到。”
支持:Ren
运营/排版:何晨龙