AIGC
生成式人工智能(Artificial Intelligence Generated Content)
生成式人工智能——AIGC(Artificial Intelligence Generated Content),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。
深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域:2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。2021年2月,OpenAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。2022年,扩散模型Diffusion Model逐渐替代GAN。
AIGC是建立在多模态之上的人工智能技术,即单个模型可以同时理解语言、图像、视频、音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述、结合语义语境生成图片等。
现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。
文本生成(AI Text Generation),人工智能文本生成是使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。
图像生成(AI Image Generation),人工智能(AI)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。
语音生成(AI Audio Generation),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音,主要用于机器人和语音播报任务。到目前为止,文本转语音任务已经相对成熟,语音质量已达到自然标准,未来将向更具情感的语音合成和小样本语音学习方向发展;语音克隆以给定的目标语音作为输入,然后将输入语音或文本转换为目标说话人的语音。此类任务用于智能配音等类似场景,合成特定说话人的语音。
视频生成(AI Video Generation),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用 AI 算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。
AIGC产业结构
AI产业链主要由基础层、技术层、应用层三大层构成。其中基础层侧重于基础支撑平台的搭建,包含传感器、AI芯片、数据服务和计算平台;技术层侧重核心技术的研发,主要包括算法模型、基础框架、通用技术;应用层注重产业应用发展主要包含行业解决方案服务、硬件产品和软件产品。
国内AIGC产业链结构主要由基础大模型、行业/场景中模型、业务/领域小模型,AI基础设施、AIGC配套服务五部分构成,并且已经形成了丰富的产业链。
通过大量无标签或通用公开数据集,在数百万或数十亿参数量下,训练的深度神经网络模型。这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。大模型需要占用大量的计算资源、存储空间、时间和电力等资源来保证它的训练和部署。
基于行业/场景专有数据,在较小参数量下训练的深度神经网络模型。面向特定场景和行业,该模型运行速度更快,也更加轻便。
代表供应商类型:行业头部数字化供应商、AI厂商、行业巨头、基础大模型厂商、数据服务供应商。
基于少量、特定领域或企业独有数据,在小规模参数下训练的深度神经网络模型。适用于解决一些简单的、小规模的问题,可以在低功耗设备上运行,具有更快的推理速度。
代表供应商类型:垂直领域数字化服务供应商(包含SaaS服务供应商)、行业巨头、AI厂商、基础大模型厂商。
为模型厂商提供算力、算法、数据服务三大套件支持,包括服务器、芯片、数据湖、数据分析能力。
围绕大模型,提供建模工具、安全服务、内容检测、基础平台等服务。
AIGC产业链上游主要提供AI技术及基础设施,包括数据供给方、数据分析及标注、创造者生态层、相关算法等。中游主要针对文字、图像、视频等垂直赛道,提供数据开发及管理工具,包括内容设计、运营增效、数据梳理等服务。下游包括内容终端市场、内容服务及分发平台、各类数字素材以及智能设备,AIGC内容检测等。
实现AIGC更加智能化、实用化的三大要素是:数据、算力、算法。
AIGC人有我优的核心基础,包括存储(集中式数据库、分布式数据库、云原生数据库、向量数据库)、来源(用户数据、公开域数据、私有域数据)、形态(结构化数据、非结构化数据)、处理(筛选、标注、处理、增强…)
为AIGC提供基础算力的平台,包括半导体(CPU、GPU、DPU、TPU、NPU)、服务器、大模型算力集群、基于IaaS搭建分布式训练环境、自建数据中心部署。
通过模型设计、模型训练、模型推理、模型部署步骤,完成从机器学习平台、模型训练平台到自动建模平台的构建,实现对实际业务的支撑与覆盖。
国外AIGC的商业化从基础大模型开始,包括以ChatGPT、Midjourney为代表的典型应用是基于基础大模型的调用,孵化而来。
国内正好相反,由于国内市场极度丰富的业务场景,高度离散的供给侧服务,导致当前的AIGC商业化先从业务/领域小模型开始。基础大模型尚处于快速迭代升级的阶段,同时也开始关注具体的业务场景。而行业/场景中模型市场相对更加滞后,但这一市场在中国特色市场下,将会是未来基础大模型和领域小模型都会积极跨界的领域。
目前国内的AIGC技术与应用,供需两侧主要集中在营销、办公、客服、人力资源、基础作业等领域,并且这种技术所带来的赋能与价值已经初步得到验证。根据TE智库《企业AIGC商业落地应用研究报告》显示,33%企业在营销场景、31.9%的企业在在线客服领域、27.1%的企业在数字办公场景下、23.3%的企业在信息化与安全场景下迫切期望AIGC的加强和支持。