大模型之争：开源与闭源，谁将主导未来？

发表时间: 2024-06-17 18:05

咱们国内的网友对自家的原创是有执着的，因为不了解模型建设，部分网友认为用了外国的“开源模型”就是在偷懒，没有技术含量，当然，某些企业是存在这些问题的，但是也有一些是在开源模型上得到更进一步的发展。

而不管是开源和闭源都是为了模型生态建设的越来越好，国内的厂商，对开源和闭源也是有争论的。

从技术发展策略的角度来看，阿里坚持开放源代码的原则。他们不仅公开了一系列人工智能模型，还建立了一个名为"魔搭社区"的AI模型开源平台。阿里云的首席技术官周靖人明确表示，开放源代码生态对全球技术发展的贡献是显而易见的，无需进一步讨论。

与此相反，百度则坚定地支持闭源策略。百度的首席执行官李彦宏公开宣称，开放源代码模型的价值有限，而闭源模式才能带来真正的商业机会，吸引资金和人才，并认为开放源代码的模型将逐渐落后。

腾讯在开源和闭源之间的态度则显得有些犹豫不决。直到最近，他们才决定将"混元文生图"大模型开源。该产品的负责人芦清林承认，在文生图领域，开源和闭源模型之间的差距正在扩大，他希望通过开源能够缩小这一差距。

开放源代码确实有其独特的优势，比如它能够推动技术的普及和共享，吸引众多开发者的参与，从而加速创新的步伐。然而，闭源策略也有其独到之处，它能够更有效地保护公司的知识产权和商业秘密，使得企业能够集中精力进行技术的研发和改进。成都市人工智能产业协会的秘书长李娅娜指出，我们不能简单地将二者进行比较，而应该根据各自的实际情况，选择最合适的技术发展路径来实现我们的发展目标。

开源模型有哪些优势

开源大模型是让大模型行业卷起来的根源。

在ChatGPT首次亮相时，业界普遍感到不安；然而，随着Llama模型的开源，业界的情绪转变为兴奋，因为更多的人看到了希望的光芒。

开源的优势在于能够汇聚众多人才，尽管有人可能会质疑AI领域的工作需要顶尖的专家，但俗话说得好，"三个臭皮匠，赛过诸葛亮"。许多业界领袖实际上也是从零开始，从头进行预训练，这需要巨大的资源投入。

当有更多的人参与进来，就会有更多的创意和想法，从而产生许多与大型模型相关的创新技巧，例如如何扩展模型的上下文理解能力（如NTK、YaRN、LongLora等技术）、如何以较低的成本合并模型以获得更大、更优的模型（如SOLAR、Llama-Pro等方法）、以及如何更有效地实现模型与人类偏好的对齐（如DPO、ORPO等技术）等。如果没有优质的开源模型作为基础，许多研究可能就无法得到发展和涌现。

随着越来越多的人投身于大型模型的研究，这无疑将为大型模型的进步带来正面影响。即使是那些坚持闭源策略的大型模型团队，也能够借鉴外部的创新方法，以此来优化和提升他们模型的性能。

随着微调技术、部署框架等的开源化，现在许多中小型企业和开发者能够迅速地应用大型模型，探索其在实际应用中的潜力和限制，使得大型模型的应用更加多样化和灵活，从而促进了人工智能技术的商业化和实际应用。

正如基于通用问答系统的开源大型模型Qwen1.5-110B在经过微调后性能显著超越了其原始版本一样，开源的力量是巨大的，它能够激发出更多的创新和突破。

当然上面只是从技术思维来讲开源的好处，但不可否认的是开源的商业模式确实不明朗，很难避免白嫖的现象。

考虑到当前GPU的成本，许多选择使用开源模型的企业倾向于选择10B参数规模的模型，因为规模更大的模型成本过高，难以承受。在这种情况下，选择API服务可能更为经济。因此，这为那些在开源市场占据领先地位的企业提供了机会。

最终，开源的大型模型和闭源的大型模型应该是互补的，它们服务于不同的用户群体。那些资源有限、愿意深入研究、需要更多定制化服务的用户，可能会倾向于选择开源的大型模型。而那些资源丰富、希望立即获得服务、追求更高端体验的用户，则可能更倾向于选择闭源的大型模型。

开源模型与闭源模型的差距

开源大模型跟闭源大模型最后应该是相辅相成的

很难相信大型模型的发展速度如此之快，让人难以置信的是，曾经令人惊叹的GPT3.5现在已经不再能够与顶级开源模型相提并论，它们的目标已经转向了GPT4。

在性能对比的排行榜上，我们可以看到，开源模型在顶级模型中占据了相当的比例，这表明它们与闭源模型之间的差距正在缩小。从实际使用体验来看，这些顶级开源模型的表现也是相当令人满意的。

闭源模式由于数据的独占性，确实形成了一定的进入壁垒，使得追赶变得困难，主要依赖于那些领先的开源组织来推动发展。对于个人或小型团队而言，他们可能只能做一些小规模的修补和改进，毕竟从头开始进行大规模预训练（Pre-train）是不现实的。

然而，不要低估这些小规模的修补和改进工作，因为在某些特定任务上，即使是对72B参数的模型进行微调，也有可能超越GPT4的性能。

开源模型哪家强

目前，开源模型的数量相当可观，但在中国，阿里云推出的通义千问模型在性能和全面性方面都表现出色。

Qwen系列模型是真正开放的，从1.5系列的0.5B到1.8B、7B、14B、32B、72B，直至目前的110B参数模型，还包括Code系列和MOE系列，以及1系列中的VL模型，提供了全面的选择。

无论你需要何种规模的模型，Qwen都能提供，并且性能卓越。在HuggingFace发布的开源大型模型排行榜Open LLM Leaderboard上，Qwen1.5-110B模型超越了Meta的Llama-3-70B，位居榜首，这充分证明了其强大的实力。

据初步统计数据显示，Qwen系列开源模型的下载量已经超过了700万次。

在当前国内无法访问HuggingFace的情况下，魔搭社区成为了获取模型的重要渠道。它不仅提供了模型下载服务，还提供了一定时长的免费GPU使用（对于测试小型模型来说已经足够），更不用说它还包含了其他配套的模型训练项目和Agent项目。

可以说，魔搭社区提供了一站式的服务，让人很难不对其产生好感。

尽管国内还有其他的开源模型，但如果论及全面性，Qwen系列模型仍然是首屈一指的。

信息来源于网络

大模型之争：开源与闭源，谁将主导未来？

热门阅读

推荐阅读