开源与闭源之争:大厂如何抉择?

发表时间: 2024-07-12 22:52



记者 张勇毅

编辑 高宇雷



在 2024 年世界人工智能大会期间,李彦宏再次就大模型“开源还是闭源”的争论做出解读,表示当前中国大模型行业应用场景处在激烈的竞争环境中“只有业务效率比同行更高,成本更低”才能让大模型脱颖而出“这种情况下,商业化的闭源模型才是行业的未来”。


他同时还强调:目前即使是较小规模的闭源模型,其实现效果同样优于同等体积的开源模型。


这并非李彦宏今年第一次发表类似的观点,进入 2024 年,李彦宏就开始在以演讲为主的各种场合,公开宣扬百度关于“闭源最终将战胜开源”的观点。


虽然此类论点几乎每次出现都会引发不小的争议,但却也直接反映出在过去一年多时间的大模型行业落地发展探索中,业内逐渐形成的两种主流论调:除了周鸿祎这样一直就行业争议话题发表观点,业内主要的明星大模型创业团队基本都旗帜鲜明地支持开源大模型,并通过开源的方式不断拓展在行业内的影响力。


而在大厂领域,目前中美两地都有分别支持开源与闭源的巨头:闭源阵营有 OpenAI、Google 以及百度,开源则是以 Meta、腾讯、阿里为主。


但这种表面上的“站队”,更多是不同发展现状下,面临不同问题的另一种解答:大模型的烧钱,对于每一家大模型公司来讲都是同样的问题,因此站在不同的角度,面对来自用户、投资人、开发者不同的需求,就出现了“巨头站闭源,中厂难开源,初创企业不能不开源”这样的现象。



初创团队:出海与融资都需要开源

相比巨头的需求各异,初创企业站队支持开源的理由相对较为统一:当前阶段所面临的主要问题,都能从“开源”这个途径找到答案。


据零一万物开源业务负责人林吕强介绍:初创团队选择开源,甚至有大量团队选择 All in 开源,本质上是因为这是一种打破市场现状的最高效的方式。


在业内大量优秀项目都已经开源的前提下,只有开源才能吸引更多用户实际上手体验,尤其是在对话模型领域的一些开创性技术,“优胜劣汰”是最重要的特征。大模型中厂喜欢通过刷各种榜单的方式博眼球,资本市场更加青睐那些真正能通过模型产品给现有体验带来明显改变的团队。


“开源也是最重要的试金石,如果你(模型)本身性能不够出众,即使是开源最终也会无人问津”一位参与到独角兽大模型团队海外出海项目的应用产品经理对电厂记者表示。


这并非是独角兽或创业团队的专利,在 Meta 与 OpenAI 的竞争中也能看到类似的影子:对于已经积累大量资源的巨头,通过开源来建立事实标准,是巨头在竞争中快速攻城略地的重要手段。


有了开源社区作为强大后盾,即使是作为 OpenAI 投资方的微软,也不得不选择放低姿态,主动成为 LLama 的最大合作伙伴:因为微软作为全球最重要的云服务供应商,自然无法背弃开源社区的主流选择。


开源是大模型开发团队寻求进一步发展的重要方式,这种特质中国大模型团队身上也体现的非常明显,尤其是当前呈现出“出海浪潮”的独角兽企业:据 The Information 报道,国内 AI 独角兽代表公司之一的月之暗面已经在为进军美国市场做准备,已经在美国招募相关员工组建团队,并计划在加州建立当地的办公室。


国内 AI 初创团队会在多个国家同时建立新的办公室布局,开源作为出海之前最关键的前哨战,对于达成出海最关键的目的之一 —— 储备人才来讲有极大的好处。凭借着开源项目的不断退出,中国初创团队也已经在全球的开源社区中占据了重要的位置,这进一步增加了中国大模型团队在出海时选择开源的意愿。



综合上述因素,如今拥抱开源已经是仅剩的选项。剩下的问题只是“如何通过开源的方式获取到更多关注,并在此过程中快速积累实力。



行业落地

正是因为开源本质上是一件多赢的行为,因此公开宣称“开源没有未来”几乎等同于站在绝大部分开发者的对立面。


百度作为同样依赖开发者社区扩大现有业务的平台级巨头,敢于频频出头犯此忌讳,原因无外乎是因为自家大模型前期训练投入的计算资源与成本,急需通过推广闭源大模型行业商业化的方式来收回。


虽然开源有着种种无可取代的优势,但目前在国内行业大模型的探索中,已经形成的共识是:至少在当下以及未来的一段时间内,开源大模型与闭源大模型之间仍然有着技术代差。这是闭源大模型的商业价值要高于开源模型的最主要原因。


从过去一年多时间的大模型行业落地应用案例来看,闭源大模型确实更受用户欢迎。主要原因是用户的实际需求各异,开源模型在处理行业相对更加复杂的垂直领域问题时,经常会出现的推理能力不足问题。


据一位长期观察大模型落地案例的分析师介绍,解决此类问题目前最理想的方式是通过闭源模型的私有化部署,在这个过程中闭源代码能更快速高效的完成合作伙伴提出的各种需求,在迭代速度更快的同时,针对用户需求更新迭代的指向性更佳。


除了需要对应用效果负责,闭源同时也是一种确保用户数据更加安全可控的宣传手段:即使开源大模型目前普遍强调自身的治理机制,例如代码审查制度以及数据隐私培训等措施,但这些都无法从根源上解决隐私泄露的风险所在。


这不仅是潜在的风险,在实际推广中更是很大程度影响着用户对大模型效果的信心:闭源模型在国内发展往往有着大厂的品牌作为背书,这即是开源闭源大模型竞争中的特殊优势,也是大模型监管领域问责链条的最后一环。


这一点在政企以及工程医疗领域的模型产品落地最为明显:2023 年八月,北京市卫健委牵头组织指定的《北京市互联网诊疗监督实施办法(试行)》公布,其中明确提到严禁使用人工智能自动生成处方、替代医师本人提供诊疗服务。对应的就是此前业内担忧最多的关于“如果患者因为 AI 错误决策受害、如何明确责任归属”这一问题。



眼下大模型行业应用仍然处于行业早期的探索试错阶段,因此绝大部分用户对于监管与问责机制都趋于极端保守的态度,但与之相矛盾的是国内各个领域的大模型应用,几乎都会面临数据质量不足的问题。


为了加速模型的训练与开发,无论开源还是闭源模型都需要大量垂直领域的合成数据来改进模型反馈质量,有着更明确责任归属与快速反馈响应机制的闭源大模型产品在这种需求之下往往能发挥其独特的优势。


根据目前公开的信息显示:主要的闭源大模型巨头在提供模型本地化部署服务的同时,往往也会通过各种方式规避直接训练带来的潜在风险,通过去标识化、数据脱敏、泛化等技术将用户数据脱敏处理,最大程度上降低安全隐患:这些已经属于百度、腾讯等传统互联网巨头最具优势的领域,让自家的闭源大模型达成这些需求,已经有相当轻车熟路的操作经验。


“大模型的代码开源并无意义,因为核心价值已经从代码转向了数据与训练方法”实际上,目前大模型遵循的“开源”,所遵循也也并非传统代码领域所理解的“开放源代码”概念。


一直以“最大开源模型平台”地位自居的 Llama2 实际上也并不遵循传统的代码开源协议,而是一个 Meta 自己定制的自有协议,其中糅杂了大量 Meta 的独占条款:例如其中明确规定了当某一个项目月度活跃用户超过七亿时,Meta 有权自行决定是否继续进行开源授权。 这是目前大模型开源领域所存在的模糊之处。



RWKV 联合创始人罗璇表示“开源并不是商业化的反义词,开源意味着打破垄断”Llama 2 系列模型开源之所以成为引发行业震动的重要事件,是因为开源虽然仍然存在着行业应用的天花板,但的确大幅降低了企业的应用门槛。


类似 Llama 2 这样的复杂的模型开源、允许其他企业在此基础之上免费商业使用,开发者也可以通过微调 Llama 2 来满足一些特定的使用需求,比起商业化的价值所在,在使用中大模型的价值逐渐清晰,从而进一步推广大模型更多应用的可能,这些在一线创业者眼中或许才是开源最具价值的领域所在。


就这一点来讲,大小企业都有机会从开源中获益,真正受到开源影响最严重的是夹在中间的各种大模型“中厂”:中型企业的投资力量远不如巨头,但也很难像初创企业那样完全走开源路线。


只要还有大量的开源贡献者不断融入社区,给行业带来新的活力与思想,就会源源不断地出现如同 Llama 2 那样的新变数,这也将是未来开源大模型重要性的最大未知数。


在行业应用领域,只有最先落地的厂商,才能获取到最多的发言权,但开源模型永远也不回如同闭源模型厂商所宣称的“开源没有未来”。开源“丛林法则”的竞争模式虽然不如闭源可控,但“突变”出规则改变者的概率也更大。


只要开源给行业带来的活力与鲶鱼效应会持续下去,开源大模型就会一直是行业中重要的一部分之一这一点并不会随着行业巨头的主观意愿而改变。