(本文作者王鹏,北京市社会科学院研究员)
人工智能大模型是基于深度学习技术的大规模神经网络模型,具有大量参数和复杂结构,能完成如自然语言、语音、图像处理与生成等各类复杂任务,对人工智能行业具有重要意义。中央网信办等部门在联合印发的《信息化标准建设行动计划(2024—2027年)》中提出加快推进大模型、生成式人工智能标准研制。为此研究大模型的不同发展模式,促进大模型的规范化标准化具有重要的现实意义。
一、开源闭源大模型的定义与影响分析
开源与闭源是人工智能大模型发展的两类模式,这两类模式共同构成了人工智能领域竞争与共生的多元环境。开源大模型是指那些源代码、训练数据和技术文档公开的人工智能大模型。这种开放性允许任何人查看、修改和分发模型。著名的开源大模型包括Hugging Face的Transformers和Facebook的Fairseq等。而闭源大模型则通常由个人、企业或机构开发并保密,其源代码、数据集和技术细节不对外公开,通常作为商业产品进行销售或通过API服务提供。著名的闭源大模型包括OpenAI的GPT系列和百度的文心一言等。
开源和闭源大模型在模式上的不同促成了相异的优缺点。开源大模型得益于开放性社区的支持与合作,能够较大程度的聚集不同开发者的资源和能力,以协作的方式对模型进行完善与优化,加速推动问题解决与技术创新。由于协作的工作模式和开放的源代码,开源大模型的代码具有更高的透明度,并且在社区的监督下,公开透明的代码能更容易进行勘误。并且由于其社区性和开放性,获取开源大模型的成本通常较低,这有效降低了个人和企业接触并使用人工智能技术的研发成本。
最后,由于开源带来的交流性,开源大模型能协助推动人工智能领域的标准化,团队和组织见间能在运用同类开源模型的基础上更容易复现结果,进行比较对比。但也正因社区协作性,使开源大模型缺乏长期稳定的商业及技术支持与维护服务。并且由于其众包式的工作模式,其内部可能存在不同的开发方向与标准,这可能会埋下模型的稳定性隐患。闭源大模型通过不公开源代码以防止核心技术被盗用,这使得大模型所有者能在保障知识产权的同时维持技术领先。并且对源代码的严格控制还能降低模型被恶意攻击的风险,保障其安全性与稳定性。
在此基础上,闭源大模型能基于使用者的需求进行定制化开发,能提供更贴合客户需求的解决方案。而独家授权的模式能帮助开发企业获取商业利益,更为直观的实现技术的商业价值。但正因为其源代码的非公开性性使得用户难以理解模型的内部机制和决策过程。这种透明度的缺乏可能导致用户对模型的信任度降低,同时,闭源大模型的封闭性使其研发主要依赖于内部团队,其创新能力可能受到一定的限制,并且用户的反馈和贡献难以直接影响模型的改进和优化。最后,闭源大模型通常以商业化服务的形式提供,使用者通常需要支付使用费用。这对于中小企业和个人开发者来说可能会带来较高的成本压力,限制了其广泛应用。
二、开源与闭源大模型发展未来展望
综合两种大模型发展模式来看,开源模式和闭源模式都对行业的规范与发展起到了同样重要的推进作用。
对开源模式而言,这类模式确实降低了行业门槛,使得更多企业和个人能够参与到人工智能技术的研发和应用中来。通过开源模式,开发者可以共享代码、算法和工具等资源,从而加速技术创新和行业发展。这类开源共享模式不仅有助于推动技术进步和创新,还可以促进人工智能知识的共享和传播。因此,从行业生态的角度来看,开源并不会对其造成损益与破坏,反而有助于推动整个人工智能行业的进步和发展。
对闭源模式而言,闭源大模型通过保护知识产权和确保技术领先地位来维护公司利益是合理的做法。闭源技术的独特性和高性能能够提升企业的品牌价值,吸引更多高端客户和合作伙伴,增强市场地位。除此之外,这还有助于鼓励企业投入更多资源进行技术创新和研发工作,并保障其商业利益不受侵犯。然而,过度保护可能导致技术发展的滞后和市场垄断的形成,因此需要在保护知识产权和促进技术发展之间找到平衡点,以避免过度保护带来的负面影响。为了保持人工智能行业在规范下稳中向好,政府可以采取不同的措施以维护大模型持续发展的生态。
首先,有关部门应完善法律法规保障措施,制定和完善相关法律法规以明确知识产权归属和使用规范,加强执法力度打击侵权行为,建立完善的知识产权交易市场和评估体系以促进技术转化和应用推广。
其次,在宣传上应鼓励开源文化与商业模式的有机结合,在保护知识产权的同时积极推动行业的开源文化的发展以促进技术创新和行业进步,同时探索将开源技术与商业模式相结合的方式以实现可持续发展。
最后,政府应在完善的制度框架下鼓励企业和不同行业为开源和闭源大模型提供必要的商业支持和服务,包括技术支持、培训、咨询等,以确保其稳定性和可持续性。
本文仅代表作者观点。
(本文来自第一财经)