深入探索大模型:如何全面开源「悟道」?

发表时间: 2023-06-16 18:03

2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI 所发布的 GPT-3 的 10 倍,受到了国内外的瞩目。也因此,智源被斯坦福、谷歌等企业列为大模型的先驱。

尽管如此,由于早期,大模型还缺乏好的应用场景和产品,价值始终无法发挥,大模型的研发也曾受到一些争议。而智源更是在大模型的算法研发尚未明朗的阶段,就已经开始了筹备开源与基础设施的构建,这在当时也令不少行业人士十分诧异。

在过去不到一年的时间里,ChatGPT 带火了大模型。曾经的唱衰者回头看,才惊觉智源这一举措的前瞻性。早在大模型的潜力还不为大多数人所熟悉时,智源是国内为数不多率先关注 AI 大模型开源与基础工作的机构之一。

作为国内最早布局大模型研发的机构,智源区别于其他家的一点是,在大模型的基础配套系统与设施上有更早期、更全面的布局。

大模型的范式变革,注定了算法的创新只是第一步,底层算力、网络、存储、大数据、AI 框架等等复杂的系统性工程问题也同等重要,如同电动汽车的普及需要便利的充电桩、针对电车的维修与保养中心等等,需要体系化的基础设施支撑。没有基础设施,就相当于在马车时代发明了汽车,大模型只能停留在“马拉小车”的阶段。

大模型时代的到来,是一场技术变革解决实际落地问题的重要突破。

那么,全局考虑下的大模型研发,又有着怎样的过人之处?

今年 6 月的智源大会上,北京智源人工智能研究院交出了一份别开生面的成绩单。

黄铁军发布《2023 智源研究院进展报告》

“悟道 3.0 ”有哪些开创性的成就?

继 2021 年悟道大模型项目连创“中国首个+世界最大”纪录之后,时隔 2 年多,智源发布并全面开源“悟道3.0”系列模型。

值得注意的是,智源的关注点不仅是模型本身,更包括模型背后的算力平台建设、数据梳理、模型能力评测、算法测试、开源开放组织等体系化工作。

“悟道3.0 ”包括“悟道·天鹰”(Aquila)语言大模型系列、“悟道 · 视界”视觉大模型系列,以及一系列多模态模型成果。同期,FlagOpen大模型技术开源体系也上新了天秤(FlagEval)开源大模型评测体系与开放平台,

智源自研,更新的架构

相比于悟道1.0、“悟道2.0 ” 是由智源与多个外部实验室联合发布的研究成果,悟道3.0 系列大模型是由智源研究院团队自研完成。

2021 年,智源推出了“悟道2.0 ” 系列模型,其语言模型、如 GLM 以及文生图模型、如 CogView 等,经过两年的发展在相关领域已实现进一步发展演进。对此,基于过去模型的研究,“悟道3.0”在很多方向进行了重构。

据智源研究院副院长兼总工程师林咏华介绍,如语言模型中采用 Decoder-Only 的架构,已证实在加以更高质量的数据之上,可在大规模参数的基础模型中获得更好的生成性能;而在文生图模型中,智源也改用了基于 difussion 模型来进行创新。

悟道·天鹰Aquila基础模型(7B、33B)则集成了 GPT-3、LLaMA 等模型架构设计优点,在替换更高效的底层算子、重新设计实现了中英双语 tokenizer 的同时,升级 BMTrain 并行训练方法,从而使 Aquila 训练过程中达到比LLaMA还要高24%的训练效率。

同时,AquilaChat 还能通过定义可扩展的特殊指令规范,对其它模型和工具的调用。举个例子,对 AquilaChat 给出一个“生成唐装女性肖像图”的指令,AquilaChat 通过调用智源开源的 AltDiffusion 多语言文图生成模型,可实现流畅的文图生成能力。

文图生成

深层次数据清洗,更合规、更干净

“悟道·天鹰”(Aquila)语言大模型系列由 Aquila 基础模型、AquilaChat 对话模型和 AquilaCode 文本 - 代码生成模型构成。

今天大模型“智能涌现”能力的出现,与其背后海量的数据分不开。 语言数据本身蕴含着丰富的知识和智能,大模型靠海量数据训练,发现海量数据内存在的结构和规律后,出现了涌现能力。

作为首个支持中英双语知识、开源商用许可的语言大模型,“悟道·天鹰” Aquila 与 LLaMA、OPT 等以英文为主的学习模型不同,其“中英双语”的特性提升了训练难度, 要实现好性能也更具挑战性。

为此,研究团队在中英文高质量语料基础上从0开始训练悟道·天鹰 Aquila 语言大模型,放入接近 40% 的高质量中文语料,包括中文互联网数据、中文书籍、中文教材、中文文献及百科等。

此前大部分模型数据的主要来源都来自知名的开源数据集如 Common Crawl 等。智源在抽取其100 万条中文数据分析其站源情况后发现,来自中国大陆的站源仅占17%,83%站源来自海外的中文网站,在内容合规性、安全性上有很大的风险。

相较之下,“悟道·天鹰” Aquila 的中文互联网数据 99% 来自国内网站,并没有使用 Common Crawl 内中文任何预料,而是使用了智源过去三年多积累的悟道数据集,使用户可以放心地基于它做持续训练。

与“悟道·天鹰” Aquila 同期发布的智源 FlagEval 大语言模型评测体系目前涵盖了 22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 评测榜单(flageval.baai.ac.cn)上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型,包括基于 LLaMA 系列微调模型 Alpaca 等。在最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。但由于当前的英文数据仅训练了相当于 Alpaca 的 40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的 Alpaca。随着后续训练的进行,相信很快可以超越。

林咏华介绍,这个结果主要得益于数据质量提升。在 LLaMA 中,开源数据集 Common Crawl 占比达到了 67%,相较之下,智源在预训练数据处理时会对数据进行深层次清洗,特别是互联网数据进行多次清洗,使数据更满足合规需要、更干净。

“悟道·天鹰”Aquila 语言大模型通过数据质量的控制、多种训练的优化方法,实现了在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。

基于 Aquila-7B 强大的基础模型能力,智源推出的AquilaCode-7B “文本-代码”生成模型,是基于 The Stack 数据集进行抽取和高质量过滤,使用了约 200GB 的数据进行训练,,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型。此外,AquilaCode-7B 在英伟达和国产芯片上分别完成了代码模型的训练,此举意在通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。

通用性更强,应用门槛低

此前业界讨论大模型时,往往焦点都放在了语言大模型。有的看法认为,视觉和语音是属于感知层面的智能,很多动物也具备,因此感知智能是比较基础、也比较低端的智能,而语言层面则是更高端的“认知智能”。

但人的智能行为是多模态的,视觉作为 AI 重要组成分支,视觉大模型在近半年里也多有突破,例如 Meta 发布的通用图像分割模型 SAM、智源推出的 SegGPT 等。

此次悟道3.0 系列模型中,智源也发布了“悟道·视界”视觉大模型系列,包括在多模态序列中补全一切的多模态大模型 Emu,最强十亿级视觉基础模型 EVA,一通百通、分割一切的视界通用分割模型,首创上下文图像学习技术路径的通用视觉模型Painter,性能最强开源CLIP模型 EVA-CLIP,简单prompt(提示)即可视频编辑的 vid2vid-zero 零样本视频编辑技术。

“悟道·视界”视觉大模型系列模型通用性更强,系统化解决了当前视觉领域存在的任务统一、模型规模化以及数据效率等系列瓶颈问题。

比如此次推出的多模态大模型 Emu ,可接受多模态输入、产生多模态输出。通过学习图文、交错图文、交错视频文本等海量多模态序列,实现在图像、文本和视频等不同模态间的理解、推理和生成。在完成训练后,Emu 可在多模态序列的上下文中补全一切,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。

最强十亿级视觉基础模型 EVA,该模型结合了语义学习模型(CLIP)和几何结构学习(MIM)两大关键点,在仅使用标准 ViT 模型的情况下,使 EVA 拥有了更高效、简单的两大优点,模型通用性更强。目前已在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得最优性能。

多模态图文预训练大模型 EVA-CLIP 是基于视觉基础模型 EVA 研发,目前参数量达到 50 亿参数。与此前 80.1% 准确率的 OpenCLIP 相比,EVA-CLIP 5B版本在 ImageNet1K 零样本top1 准确率达到了 82.0%。

智源“悟道·视界”的另一成果是,今年年初发布的一通百通、分割一切的视界通用分割模型,其与 SAM 模型同时发布,是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型,可从影像中分割出各种各样的对象,是视觉智能的关键里程碑。

建立科学、公正、开放的评测基准

当前,大模型仍具有诸多难以透彻理解的黑盒特性,规模大、结构复杂,对其所待开发的“潜力”具体形式和上限尚无法确定,传统的评测方法和基准在基础模型评测上也面临着失效的问题。

在这种迫切的情况下,我们亟需搭建起一套科学、公正、开放的大模型评测体系,这有助于在学术上拉动大模型创新,构建可以衡量大模型的能力和质量的尺子。同时在产业上,为不具备研发和构建基础大模型的企业提供一个可信可靠的全面的评测体系,将帮助他们更客观地选择适用于自身的大模型。

为此,智源优先推出了天秤(FlagEval)大模型评测体系及开放平台,创新性地构建了“能力 - 任务 - 指标”的三维评测框架,细粒度地刻画基础模型的认知能力边界,呈现可视化评测结果,提供 30 + 能力、5 种任务、4 大类指标共 600 + 维全面评测,任务维度当前包括 22 个主客观评测数据集和 84433 道题目,更多维度的评测数据集正在陆续集成。

目前,天秤 FlagEval 大模型评测体系及开放平台已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理、计算机视觉、音频及多模态等四大评测场景和丰富的下游任务。天秤 FlagEval 将继续拓展和完善“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。

为未来智能运营商提供底层支持

2021 年 3 月,在“悟道 1.0 ”的发布现场,黄铁军表示,人工智能的发展已经从“大炼模型”逐步迈向了“炼大模型”的阶段。在此之前,学术界称“大模型”一直是“预训练模型”,但从这一刻起,智源给了一个更接地气的叫法,“大模型”概念正式进入公众视野。

不同于国内大部分做大模型研发的公司,可以说,智源是第一个关注大模型基础设施的团队。由张宏江、黄铁军首次提出的“大模型是 AI 时代的智能基础运营商”的说法,如今看来也极具前瞻性。

如果说模型和算法是让机器得以转动的电力,那么担任发电厂角色的大模型,则非所有机构和企业都能参与角逐的对象。

同时我们也看到,基础设施的体系化建设非一家之力可以完成,需要更多机构协力合作,建立提供数据、训练、评测、治理等全套服务。此前黄铁军就曾断言,“不可能、也不应该有任何一家企业来完全封闭地主导大模型这么一个重要的方向。”

大模型技术经过这几年的你追我赶,研发技术上已较为成熟,而 ChatGPT 和 GPT-4 的火爆,将大模型应用拉向了大规模落地的阶段。

这当中,开源扮演着重要角色。

林咏华作《悟道·天鹰大模型——工程化打造AI中的“CPU”》主题报告

林咏华认为,智源大模型开源的必要点在于,基于大模型本身的特色,需要构建一个的开源系统。

从研发的角度来看,大模型目前还面临着三个突出的难题。一方面,大模型技术复杂,各种开源框架和算法增加了开发者的学习难度,加上许多开源算法的模块没有统一接口,以至于在研究时仅适配阶段就要花耗很多时间;其次,开源模型质量也参差不齐;更重要的是,大模型在系统层面的工程浩大,训练和推理都需要很大的平台算力去支持。

面对重重困难,智源先于行业一步开始大模型的开源工作,目前也取得了一定的成果。具体来看,智源不但开源了悟道大模型项目,也打造了大模型技术开源体系(FlagOpen飞智),对模型、工具、算法代码等开源。

其中,FlagOpen 的核心 FlagAI 是大模型算法开源项目,当中集成了全球各领域的一些明星模型,如语言大模型OPT、T5,视觉大模型 ViT、Swin Transformer,多模态大模型 CLIP 等,也包含了智源自家的明星大模型,此次发布的悟道 · 天鹰 Aquila 就集成到了 FlagAI 开源项目中(
https://github.com/FlagAI-Open/FlagAI)。

在目前开源项目中,FlagAI 开源最早,从 2022 年 6 月开始,FlagOpen 整个开源体系也是围绕大模型去建设。从体系化的角度做大模型生态,智源想将 FlagOpen 打造成新浪潮里的“新Linux”生态。

在模型之外,智源也做了很多的工作,例如此前推出的混合架构云平台九鼎,不仅满足了不同模型对算力要求的调度,作为大模型系统创新的试验场,可在平台上率先进行 AI 系统创新,九鼎还肩负着用大模型来拉动多种 AI 加速算力的重任。

目前,国内大部分应用层公司的普遍思路主要有两个,一类是直接用大模型将现有的软件升级一遍,另一类是基于行业 Know-How 训练出自己的模型算法、在此基础上再提供应用服务。对许多企业来说,从 0 到 1 不断训练、优化大模型往往并不经济,各行各业都需要成本足够低的 AI 基础设施。

在开源模式下,企业凭借公开的源代码,可以在已有的基础框架上、基于自身业务需求做训练和二次开发,例如在 FlagAI 上,当中集成了很多主流大模型算法技术,此外还有多种大模型并行处理和训练加速技术,并且支持微调,开箱即可使用,应用门槛低,对企业应用和开发者创新都非常友好。

这种基于开源模型做自主创新的方式,发挥了大模型通用性上的优势,模型效果专业性也更强,从而释放出远超于当前的生产力。

智源始终坚持全面开源,在开源体系下丰富算力平台、大模型服务等 AI 基础设施,让企业不必再“重复造轮子”、陷入对算力和算法无意义内卷中去,而是把更多的精力投入到原创的、专属的模型研发和应用革新中。

对于企业而言,使用开源的技术和产品还远不止是成本上的考量,同时也是对风险的规避、降低和质量的提高。例如 Meta 在今年年初开源的 LLaMa,就规定了其版权不可以商用,基于 LLaMa 微调的新模型也不能商用,而智源所开源的悟道 · 天鹰 Aquila 大模型则是真正在协议规定上支持商用。

以大模型为核心的新生态正在形成,在变革的浪潮里,技术创新引领不断向前的方向,而起到支撑性作用的基础设施、将决定我们能走得多远。智源举开源之力,促进大模型时代的协同创新,让更多企业能放心地把大模型用起来,一起参与到智能未来蓝图的绘制中去。

(雷峰网雷峰网)