大公司慷慨支持下的开源人工智能,其持久性如何?

发表时间: 2023-05-15 19:42

近日,一份据传由谷歌高级工程师卢克•塞尔瑙(Luke Sernau)撰写的备忘录泄露,它大声说出了硅谷许多人的心声:一场开源混战正威胁着大型科技公司对人工智能的控制。


新的开源大型语言模型——谷歌的 Bard 或 OpenAI 的 ChatGPT 的替代品,它们允许研究人员和应用程序开发人员对其进行重建和修改。这些模型比大公司创造的类似的人工智能模型更小、更便宜,性能上(几乎)与它们相当,而且它们是免费共享的。


谷歌在上周的年度产品展示会上透露,它正在把生成式人工智能应用到它的所有产品中,从 Gmail 到照片再到地图。所有大公司都忙着升级自己的产品,却看不到真正的竞争即将到来,塞尔瑙写道:“当我们一直在争吵的时候,第三个派别已经悄悄地吃掉了我们的午餐。”


从很多方面来说,这是一件好事。更广泛地使用这些模型有助于推动创新,也有助于发现它们的缺陷。如果只有几家超级巨头控制着这项技术或者决定如何使用这项技术,人工智能就不会蓬勃发展。


但是这种开源的繁荣是不稳定的。大多数开源模型仍然是站在财力雄厚的大公司推出的巨型模型的肩膀上。如果 OpenAI 和 Meta 决定收回权限,这个新兴领域可能会变成一滩死水。


例如,这些开源模型中的许多都是建立在 LLaMA 之上的,LLaMA 是 Meta AI 发布的一个开源大型语言模型。其他模型则使用一个名为 Pile 的大型公共数据集,该数据集是由开源非营利组织 EleutherAI 收集的。但 EleutherAI 的存在只是因为 OpenAI 的开放性,这让一群工程师能够逆向工程 GPT-3 的制作方式,然后在空闲时间创建了自己的 GPT-3。


“Meta AI 在培训和向研究界发布模型方面做得非常好,”斯特拉·比德曼(Stella Biderman)说。她是 EleutherAI 的执行董事兼研究主管,同时也在咨询公司 Booz Allen Hamilton 工作。塞尔瑙在他的备忘录中也强调了 Meta AI 的关键作用。谷歌向《麻省理工科技评论》证实,这份备忘录是由一名员工撰写的,但指出它不是一份官方战略文件。


这一切都可能改变。由于担心竞争,OpenAI 已经改变了之前的开放政策,而且 Meta 可能开始想要控制新生力量对其开源代码做出不愉快事情的风险。“老实说,我觉得现在这样做是正确的,”Meta AI 的董事总经理乔尔•皮诺(Joelle Pineau)在向外界开放代码时说,“但这会是我们未来五年将延续的战略吗?我不知道,因为人工智能发展得太快了。”


如果这种关闭访问权限的趋势继续下去,那么不仅开源社区将被孤立,而且下一代人工智能的突破将被完全握在世界上最大、最富有的人工智能实验室手中。


可以说,人工智能的制造和使用方式的未来正处于十字路口。



开源蓬勃发展


开源软件已经存在了几十年,这是互联网生态运行的基础。但是构建强大模型的成本意味着开源人工智能直到大约一年前才开始腾飞,它很快就变成了一个富矿。


看看最近几周就知道了。2023 年 3 月 25 日,倡导免费开放人工智能的初创公司 Hugging Face 推出了首款开源聊天机器人 HuggingChat,对标 ChatGPT 即 OpenAI 于 2022 年 11 月发布的聊天机器人。 HuggingChat 建立在一个名为 Open Assistant 的开源大型语言模型之上,该模型经过了大约 1.3 万名志愿者的帮助训练,并于一个月前发布。但是,Open Assistant 本身是建立在 Meta 的 LLaMA 之上的。


然后是 StableLM,这是一个开源的大型语言模型,由 Stability AI 公司于 3 月 19 日发布,该公司开发了热门的文本到图像模型 Stable Diffusion。一周后,也就是 3 月 28 日,Stability AI 发布了 StableVicuna,这是 StableLM 的一个版本,与 Open Assistant 或 HuggingChat 一样,它针对对话进行了优化(StableLM 是 Stability 对 GPT-4 的回应,而 StableVicuna 则对标 ChatGPT)。


这些新的开源模型只是过去几个月发布的一系列模型的一部分,包括 Alpaca(来自斯坦福大学的团队)、Dolly(来自软件公司 Databricks)和 Cerebras-GPT(来自人工智能公司 Cerebras)。这些模型大多建立在 LLaMA 或 EleutherAI 的数据集和模型上,而 Cerebras-GPT 遵循 DeepMind 设置的模板。未来肯定还会出现更多。


对一些人来说,开源是一个原则问题。人工智能研究员、YouTube 用户扬尼克·基尔彻(Yannic Kilcher)在一段介绍 Open Assistant 的视频中说:“这是一项全球社区的努力,旨在将对话式人工智能的力量带给每个人……让它摆脱少数大公司的控制。”


“我们永远不会放弃为开源人工智能而战,”Hugging Face 的联合创始人朱利安·肖蒙德(Julien Chaumond)曾在推特上写道。


对其他人来说,这是一个利益问题。Stability AI 希望在聊天机器人上复现它在图片生成上取得的辉煌:推波助澜,然后从使用其产品的开发人员的创新中受益。该公司计划充分利用这一创新,并将其重新投入到面向广大客户的定制产品中。Stability AI 的 CEO 爱马德·莫斯塔克(Emad Mostaque)表示:“我们激发创新,然后进行挑选。这是世界上最好的商业模式。”


不管怎样,大量免费和开放的大型语言模型将这项技术推向了世界各地数百万人的手中,激励了许多人创造新的工具并探索它们的工作原理。比德曼说:“使用这项技术的途径比以往任何时候都要多。”


“坦率地说,人们使用这项技术的方式多得令人难以置信,令人兴奋,”美国弗里德弗兰克律师事务所的律师阿米尔·加维(Amir Ghavi)表示。他代表了包括 Stability AI 在内的多家生成式人工智能公司。“我认为这证明了人类的创造力,而这正是开源的全部意义所在。”



GPU 融化


但是,从头开始训练大型语言模型,而不是在现有模型的基础上进行构建或修改是很困难的。莫斯塔克说:“绝大多数人仍然无法做到。我们在构建 StableLM 时烧坏了一堆 GPU。”


Stability AI 发布的第一个模型是可以用文本生成图像的 Stable Diffusion 模型,性能与谷歌的 Imagen 和 OpenAI 的 DALL-E 等封闭的同类产品相当。它不仅可以免费使用,还可以在一台不错的家用电脑上运行。2022 年,Stable Diffusion 比其他任何模型都更能激发围绕图像制作 AI 的开源开发的爆炸式增长。


不过,这一次,莫斯塔克想要管理期望:StableLM 与 GPT-4 相差甚远。“还有很多工作要做,”他说,“它不像 Stable Diffusion 那样,你可以立即获得非常可用的东西。语言模型更难训练。”


另一个问题是,模型越大,训练难度越大。这不仅仅是算力成本的问题。更大的模型更容易导致训练过程中断,需要重新启动,这使得这些模型的构建成本更高。


比德曼说,在实践中,大多数团队能够训练的参数数量是有上限的。这是因为大型模型必须在多个不同的 GPU 上进行训练,而将所有硬件连接在一起是很复杂的。


随着技术的进步,确切的数字会发生变化,但目前,比德曼认为这个上限大约在 60 亿到 100 亿个参数之间。相比之下,GPT-3 有 1750 亿个参数,LLaMA 有 650 亿。一般来说,越大的模型往往表现得更好,不过关联性也不是 100% 的。


比德曼预计,围绕开源大型语言模型的活动将持续下去。但它将集中于扩展或调整一些现有的预训练模型,而不是推动基础技术的发展。她说:“只有少数几家公司对这些模型进行了预训练,我预计这种情况在不久的将来会保持下去。”


这就是为什么许多开源模型都是建立在 LLaMA 之上的,LLaMA 是由 Meta AI 从头开始训练的,或者是 EleutherAI 发布的,EleutherAI 是一个非营利组织,在开源技术方面做出了独特的贡献。比德曼说她只知道另外一个这样的组织,它在中国。


EleutherAI 的起步要感谢 OpenAI。回到 2020 年,这家总部位于美国旧金山的公司刚刚推出了一款热门的新模型。“对于很多人来说,GPT-3 改变了他们对大规模人工智能的看法,”比德曼说,“就人们对这些模型的期望而言,这通常被认为是一种智力范式的转变。”


比德曼和其他一些研究人员为这项新技术的潜力感到兴奋,他们想把玩这个模型来更好地理解它是如何工作的,于是他们决定复制它。


OpenAI 那时还没有发布 GPT-3,但它确实分享了足够的信息,让比德曼和同事们弄清楚它是如何构建的。在 OpenAI 之外,从来没有人训练过这样的模型,但当时正值疫情中期,团队几乎没有其他事情可做。比德曼说:“当我参与进来时,我除了工作,就是和我的妻子一起玩桌游。所以每周花 10 到 20 个小时来做这件事相对容易。”


他们的第一步是建立一个庞大的新数据集,其中包含数十亿段文本,以与 OpenAI 用于训练 GPT-3 的数据集相媲美。EleutherAI 将其数据集称为“Pile”,并于 2020 年底免费发布。


然后,EleutherAI 使用这些数据集来训练它的第一个开源模型。EleutherAI 训练的最大的模型花了三个半月的时间,由一家云计算公司赞助。其说:“如果我们自掏腰包,我们将花费大约 40 万美元。”“这对一个大学研究小组来说太高了。”



援助之手


由于成本高昂,在现有模型的基础上构建要容易得多。Meta AI 的 LLaMA 已经迅速成为许多新开源项目的起点。自从十年前由杨立昆(Yann LeCun) 创立以来,Meta AI 一直倾向于开源开发。皮诺说,这种心态是文化的一部分:“这是一种非常自由的、‘快速行动、创造东西’的方式。”


皮诺很清楚这样做的好处,其表示:“这确实让有能力为开发这项技术做出贡献的人多样化。这意味着研究人员,企业家或民间组织等也可以看到这些模型。”


像更广泛的开源社区一样,皮诺和同事们认为透明度应该成为规范。其表示:“我敦促我的研究人员做的一件事是,在开始一个项目时,就考虑到你想要开源。因为当你这样做时,它在数据使用和如何建立模型方面设定了更高的标准。”


但也存在严重的风险。大型语言模型会散播错误信息、偏见和仇恨言论。它们可以用来炮制大规模舆论宣传信息或者为恶意软件提供动力。“你必须在透明度和安全性之间做出权衡。”皮诺说。


对于 Meta AI,这种权衡可能意味着一些模型根本不会发布。例如,如果皮诺的团队在 Facebook 用户数据上训练了一个模型,那么它将留在内部,因为私人信息泄露的风险太大了。否则,团队可能会发布带有特殊许可的模型,指定它必须仅用于研究目的。


这就是 LLaMA 所采用的方法。但在发布后的几天内,有人在互联网论坛 4chan 上发布了完整的模型和运行说明。皮诺说:“我仍然认为,对于这种特殊的模式来说,这是正确的权衡。”“但我对人们会这么做感到失望,因为这让发布这些模型变得更加困难。”


她说:“我们一直得到公司领导层和马克·扎克伯格的大力支持,但这并不容易。”


Meta AI 的风险很高。她说:“当你是一家非常小的初创公司时,做一些疯狂事情的潜在风险要比当你是一家非常大的公司时低得多。现在我们向成千上万的人发布了这些模型,但如果问题变得更大,或者我们觉得安全风险更大,我们将关闭它,只向拥有非常强大保密措施的已知学术合作伙伴发布,采用保密协议或 NDA 模式,他们不能用该模型构建任何东西,即使是为了研究目的。”


如果发生这种情况,那么许多开源生态系统的宠儿可能会发现,他们在 Meta AI 接下来推出的任何产品上构建的许可证都被吊销了。如果没有 LLaMA,像 Alpaca、Open Assistant 或 Hugging Chat 这样的开源模型就不会这么好,而且下一代的开源创新者不会像现在这批人那样有优势。



权衡


其他人也在权衡这种开放源代码的风险和回报。


大约在 Meta AI 发布 LLaMA 的同时,Hugging Face 推出了一种闸门机制,这样人们在公司平台上下载许多模型之前必须请求访问并获得批准。这个想法是为了只允许那些有正当理由的人接触这个模型——由 Hugging Face 决定。


“我不是开源的布道者,”Hugging Face 公司的首席伦理科学家玛格丽特·米切尔(Margaret Mitchell)说,“我确实明白为什么闭源很有意义。”


米切尔指出,对于大模型的广泛使用来说,未获授权的色情作品是一个不利因素。她说,这是人工智能图像制作的主要用途之一。


米切尔曾在谷歌工作,并与人共同创立了谷歌伦理人工智能团队,她理解其中的紧张关系。她倾向于她所谓的“负责任的民主化”——这是一种类似于 Meta AI 的方法,即根据模型会造成伤害或被滥用的潜在风险,以一种可控的方式发布模型。她说:“我真的很欣赏开源的理念,但我认为建立某种问责机制是有用的。”


OpenAI 也在削弱其开放性。上个月,当该公司宣布为 ChatGPT 提供动力的新版大型语言模型 GPT-4 时,技术报告中有一句引人注目的话:“考虑到像 GPT-4 这样的大型模型的竞争情况和安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似技术内容的更多细节。”


这些新的限制部分是由于 OpenAI 现在是一家以利润为导向的公司,与谷歌等公司竞争。但它们也反映出一种心态的改变。OpenAI 联合创始人兼首席科学家伊利亚·萨特斯克弗(Ilya Sutskever)在接受 The Verge 采访时表示,该公司过去的开放性是一个错误。


OpenAI 的政策研究员桑德希尼·阿加瓦尔(Sandhini Agarwal)说,在公开什么是安全的、什么是不安全的问题上,OpenAI 显然已经改变了策略:“以前,如果某个东西是开源的,可能只有一小群人会关心。现在,整个环境都变了。开源确实可以加速开发,并导致激烈竞争。”


但事情并不总是这样的。如果 OpenAI 在三年前公布 GPT-3 的细节时有这种感觉,就不会有 EleutherAI。


如今,EleutherAI 在开源生态系统中扮演着关键角色。从那以后,它建立了几个大型语言模型,Pile 被用来训练许多开源项目,包括 Stability AI 的 StableLM。


如果 OpenAI 分享的信息少一些,这一切都不可能实现。与 Meta AI 一样,EleutherAI 支持着大量开源创新。


但是随着 GPT -4 的出现,开源可能会再次被一些大公司所关注。他们可能会推出疯狂的新版本——甚至可能威胁到谷歌的一些产品。但他们将被上一代模型所困。真正的进步,将发生在关起门的房间里。


这有什么关系吗?一个人如何看待大型科技公司关闭访问权限的影响,以及它对开源的影响,在很大程度上取决于你对人工智能应该如何制造以及应该由谁制造的看法。


“人工智能很可能成为未来几十年社会组织方式的驱动力,”加维说,“我认为,建立一个更广泛的监督和透明体系,比把权力集中在少数人手中要好。”


比德曼对此表示赞同:“我绝对不认为,让每个人都去做开源,是某种道德上的必要性,”其表示,“但说到底,让人们开发和研究这项技术是非常重要的,而不是为其商业成功进行经济投资。”


另一方面,OpenAI 声称它只是在谨慎行事。OpenAI 信任与安全团队负责人戴夫•威尔纳(Dave Willner)表示:“我们并不是认为透明度不好。更重要的是,我们正在努力弄清楚如何协调透明度和安全性。随着这些技术变得越来越强大,在实践中这些东西之间存在一定程度的紧张关系。”


“人工智能领域的许多规范和思维都是由学术研究团体构建的,这些团体重视协作和透明度,这样人们就可以在彼此的工作基础上继续发展,”威尔纳说,“也许随着这项技术的发展,这种情况需要有所改变。”


支持:Ren