昆仑万维开源130亿参数大模型,无需申请即可商用

发表时间: 2023-10-31 13:42

10月30日,互联网平台出海企业昆仑万维宣布,正式开源旗下自研百亿级大语言模型“天工Skywork-13B系列”,包括Skywork-13B-Base、Skywork-13B-Math两大模型。


并且,每个模型都提供“量化版本”,即能够通过“模型的压缩”形成更小规模的版本,最小可在消费级显卡进行部署和推理。


“与开源竞争注定失败。”广为流传的谷歌内部文件《我们没有护城河,OpenAI也没有》中这样写道。


文中进一步解释:“当免费的、不受限制的替代品质量相当时,人们不会为(ChatGPT为代表的、闭源的)受限制的模型付费。”


随着百模之战不断深化和升级,不少企业都开始面临闭源与开源所代表的两种不同商业模式之间的选择。


此前,国内已有多家企业官宣开源大模型,但普遍设置了授权申请门槛。而据官方信息,本次昆仑万维官宣开源的两大模型无需任何申请,允许开发者直接商用。


01、又一国产开源大模型正式发布


在此之前,阿里云、搜狗创始人王小川所创办的百川智能、清华系公司智谱AI等市场参与者均已发布了开源大模型。与之相比,昆仑万维官方表示,天工Skywork-13B系列堪称“业内开源最彻底的百亿高质量商用模型”。


“彻底”体现在天工Skywork-13B系列,无需开发者额外申请即可商用。


相较之下,目前开源社区中的中文大模型多数并非是完全可商用,一般开源社区用户通常需要进行复杂的商用授权申请流程,在某些情况,甚至有对公司规模、所在行业、用户数等维度有明确规定不给予商业授权。

不仅如此,开源百亿参数大模型之外,昆仑万维还同步开源了600GB、1500亿个Tokens(字符)的超大高质量开源中文数据集。


开发者可以最大程度地借鉴技术报告中大模型预训练的过程和经验,深度定制模型参数,有针对性地进行训练与优化。


从ChatGPT掀起市场热潮之初,训练数据的重要性就屡被提及。ChatGPT乃至诸多大模型产品的核心算法架构Transformer由谷歌在2017年最初提出,其技术思想早已十分成熟。与之相比,高质量的训练数据集,特别是中文数据集仍十分稀缺。


据华泰证券研报,如ChatGPT训练数据中中文资料比重不足千分之一,仅为0.0991%,而英文资料占比超过 92.6%;据加利福尼亚大学和Google研究机构发现,机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供,其中10家为美国机构,1家为德国机构,仅1家机构来自中国,为香港中文大学。


因此,在国内各方力量攻关大模型研发的过程中,数据集同样是重要一环。


昆仑万维官方表示,其本次开源的数据集是目前最大的开源中文训练数据集之一。


02、开源vs闭源,各往何处去


在不少业内人士看来,模型开源和闭源之间并没有明确的界限,两者结合更有助于企业构建商业化优势。


如国金证券研报写道的,对于AI算法公司,选择对外开源有助于行业技术进步和自身生态构建,是学界、早期业界以及部分AI初创企业的选择。日益成熟的生态建设也是推升公司估值的主要驱动力之一。


而目前OpenAI、Google、Meta等领先的头部AI大厂对于先进模型大多采用部分开源或仅开放使用模式。


举例而言,2020年OpenAI发布了GPT-3模型,并在论文中较为详细地介绍了模型训练情况。用户可以借助论文不仅可以借助论文复现模型训练过程,还可以通过API的方式调用模型资源,属于对外部分开源;而之后发布的ChatGPT、GPT-4则并未披露模型训练细节。


(图源/国金证券)


这也与如今昆仑万维的思路不谋而合。


今年4月份,昆仑万维首次发布自研千亿级大语言模型“天工”,并于8月份推出AI搜索产品“天工AI搜索”。


昆仑万维方面告诉「市界」,昆仑万维董事长兼CEO方汉是是中文Linux(一种自由和开放源码的操作系统)开源最早的推动者之一,最早一批参与到开源生态建设的开源“老兵”。本次开源Skywork-13B系列大模型,希望让更多开发者们参与到AIGC的技术发展中,降低大模型商业门槛,推动大模型技术的行业落地。


今年7月中旬,Meta公司发布了Llama 2大模型的开源商用版本。彼时AI企业猎豹移动的创始人傅盛公开表示:“大模型不再高不可攀,平民化大模型时代已经到来!像我们这样的公司会笑醒在深夜。”


而事实也的确证明了,在开发者的共建下,Llama 2生态发展极为迅速,被业界视为抢占OpenAI生态的最强大力量。


随着百模大战拼至“中场”,生态的构建势必成为包括昆仑万维在内,各家大模型企业的争夺焦点。


参考文献:

《LLaMA等开源模型凸显先进算法及行业数据的重要性》,国金证券


(作者|董温淑,编辑|孙春芳)