(报告出品方/作者:国海证券,陈梦竹、尹芮)
文生图:基于文本生成图像,S t a b l e D i f f u s i o n开源后迎来快速发展
文生图(Text-to-Image)是基于文本通过生成式AI生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的Stable Diffusion、 Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心·一格也投入商用。文本生成图像的底层模型可以分为 GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。
文生视频:与文生图底层技术一致,自回归和扩散模型为主流
文生视频(Text-to-Video)是基于文本通过生成式AI生成视频的模式。随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演 变及增加,近3年时间,以Runway为代表的文生视频公司在不断涌现,互联网行业的巨头,比如谷歌、Meta、微软,同样投入人员和精力参与其 中,国内目前文生视频技术还在初期发展阶段,目前魔搭社区(Model Scope)里的开源模型ZeroScope表现亮眼。文本生成视频模型的发展经历 三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。
G AN:通过生成器和判别器对抗训练提升图像生成能力
GANs(GAN, Generative Adversarial Networks),生成对抗网络是扩散模型前的主流图像生成模型,通过生成器和判别器进行对抗训练来 提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。
自回归模型:采用Tr ans f or m e r结构中的自注意力机制
自回归模型(Auto-regressive Model)采用Transformer进行自回归图像生成。Transformer整体主要分为Encoder和Decoder两大部分,能够模拟像素和高级 属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。采用该架构模型的文生图通常将文本和图像分别转化成tokens序列,然后利用 生成式的 Transformer 架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。
扩散模型:当前主流路径,通过添加噪声和反向降噪推断生成图像
扩散模型(Diffusion Model)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学 习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。
C L I P:实现文本和图像特征提取和映射,训练效果依赖大规模数据集
CLIP(Contrastive Language-image Pre-training)是基于对比学习的文本-图像跨模态预训练模型,由文本编码器(Text Encoder)和 图像编码器(Image Encoder)组成,编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和 差异度计算来训练模型,从标签文本创建数据集分类器,从而能够根据给定的文本生成符合描述的图像。
平均来看自回归模型成本最高,生成视频成本远高于生成图片
但在实际模型应用中,成本不仅取决于参数量大小,也取决于训练时间和用户规模。 前期训练阶段,若对模型训练时间没有要求,可以通过延长训练时间降低GPU成 本;若对训练时间要求较短,则需要布局更多芯片提高训练速度。 上线阶段,如果用户体量很大,比如OpenAI和Midjourney规模用户体量,线上 运营推理的成本可能占到整体成本80-90%,训练阶段成本只占10-20%。
人眼看到的视频是透过一连串的静态影像连续快速播放的结果,由于每一 张静态画面的差异很小,因此连续快速播放时,一张张快速闪过的静态画 面在人眼视网膜上产生“视觉暂留”现象,原本静态的图像仿佛连贯运动 了起来。
通常来说,人看到视频是连贯的需要帧率为每秒24帧以上,电影放映的标 准也是每秒24帧以上。如果文生图一次性消耗的算力是一个单元,文生视 频一次产生消耗约24个单元。实际应用可能是小于24,但不会小特别多, 并且很有可能大于24,因为文生视频不仅仅是简单的把图片快速播放起来, 还需要内容具备多维性和多元性。目前主流文生视频模型生成视频长度仅 支持2秒~4秒。
文生图领域整体创业门槛低于大语言模型,商业模式仍存疑问
模型层看:图像生成领域已有生成质量较高的开源预训练模型Stable Diffusion,且SD具有较为丰富 的开发者生态,有许多插件供选择。创业公司可基于Stable Diffusion基础版本进行进一步调优和个 性化数据训练, Stable Diffusion最新发布的开源模型SDXL1.0采用更大参数量级进一步提升了生成 图像质量。例如初创公司⽆界 AI 便是国内最早基于 SD 模型推出 AI 绘画⼯具的平台之⼀。
成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到 了70B,文生图整体参数量级较小,成本远低于通用大模型。通过调研文生图初创公司,实际小团队 利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX30系列、IBS3060 (5000~1w/张)也可以启动。用户1万左右的文生图公司,生成单张图片的成本在0.1元左右。
文生图领域虽然创业门槛低,但商业模式仍存疑问。但国内C端用户付费意愿偏低,B端则需要和场景 强相关,会有较多定制化的场景,要针对不同客户的产品需求去打造相应的图片生成的引擎,对工程 化能力有很高的要求,长期看大公司可能具备更强的场景和工程化能力。以无界AI为例,其用户量接 近300万,C端付费率约20%,营收主要来源于B端客户。
M e t a:公布基于自回归的模型C M 3 L e o n,生成质量媲美主流扩散模型
7月16日,Meta在官网公布CM3leon,是首个使用纯文本语言模型配方改编和训练而成的多模态模型,使用了30亿文本token,并经历了大规模检索增强预训练和随 后的多任务监督微调(SFT)阶段。
M i dj our ne y:基于扩散模型的文生图龙头,用户规模超千万
Midjourney 是AI基于文字生成图像的工具,由David Holz创立于2021年。Midjourney以拥有充沛流量的Discord为载体,实现低成本获客和低成本营销,在此中拥有 超过1000万人的社区,不到一年完成了1亿美元的营收,但至今未融资。Midjourney的模型是闭源的,参考CLIP及Diffusion开源模型的基础上抓取公开数据进行训练。
St abi l i t yAI:发布St abl e Di f f us i on开源模型
Stable Diffusion是Stability AI下的一款基于生成式AI的文本生成图像的模型,于2022年8月首次推出。2022年10月Stability AI获得了由全球风险投资公司 Lightspeed Venture Partners和Coatue Management领投的1.01亿美元融资,估值突破10亿美元,是AI绘画领域的第一家“独角兽”。
Clipdrop被Stability AI收购,融入多项AI功能图像处理能力优秀,数据显著增长
公司简介:Clipdrop是Init ML公司旗下的AI图像编辑和生成应用。该应用包含超过10种图像处理工具,也加入了AI智能生成图片功能。母公司Init ML于2020年创立于 法国,于2023年3月被AI图像生成模型Stable Diffusion的母公司Stability. AI收购。2022年6月,Stability. AI发布SDXL 0.9,表示其是“Stable Diffusion文本-图像模 型套件”的最先进开发版本。在收购Clipdrop后, SDXL 0.9功能应用于Clipdrop中。2023年7月26日,Stability. AI发布SDXL 1.0,进一步提升Clipdrop性能。其后数 据出现明显增长,2023年7月网站访问量接近1500万。
A d o b e F i re f l y:与A d o b e旗下图像编辑软件结合,具备较强可编辑性
Firefly是Adobe的一款基于生成式AI的工具,能够通过100多种语言,使用简单的文字建立影像、生成填色、对文字套用样式和效果、生成式重新上色、3D转换为影像、 延展影像等。目前的 Firefly 生成式 AI 模式使用 Adobe Stock 资料集、开放授权作品和著作权已到期的公共内容进行训练。2023年9月,Adobe公布旗下AIGC工具Firefly AI的商业化方案:点数制收费,用户使用AI作图时消耗生成点数,每个点数对应一张图,每月可免费获得25点生成点数,同时可以付费购买额外点数。以单独购买Adobe Firefly的价格计算,生成每幅图像的价格大约为5美分。
视频生成模型:行业迎来小幅高潮,生成质量仍有提升空间
在一定程度上,文本生成视频可以看作是文本生成图像的进阶版技术,同样是以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。据量子位发布的《AIGC/AI生成 内容产业展望报告》,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化。
清华C o g Vi d e o:首个开源的中文文本生成视频模型,基于自回归模型
CogVideo是由清华团队2022年发布的基于预训练的CogView2(文本生成 图像模型)9B-参数转换器。CogVideo是当时最大的、首个开源的文本生 成视频模型,支持中文prompt,参数高达94亿。CogVideo采用的 Transformer结构,和CogView的几乎一致,例如使用夹层范数 (Sandwich LayerNorm)和PB-Relax来稳定训练。
谷歌 Phe nak i:首个可生成长视频的自回归模型
Phenaki由Google Research开发制作,该模型是第一个能够从开放域时间变 量提示中生成视频的模型,能够根据一系列开放域文本提示生成可变长度的 视频。通过将视频压缩为离散的令牌的小型表示形式,词例化程序使用时间 上的因果注意力,允许处理可变长度的视频。转换器以预先计算的文本令牌 为条件,使用双向屏蔽转换器使得文本生成视频令牌,生成的视频令牌随后 被取消标记化以创建实际视频。
Runway G e n- 1 & G e n- 2:商用文生视频的明星应用
Runway 是基于生成式AI的图像和视频编辑软件供应商,是目前面向C端客户商业化的公司,由Cristóbal Valenzuela, Alejandro Matamala 和Anastasis Germanidis创立于2018年,是福布斯AI50榜单:最有前途的人工智能公司之一,其总部位于美国纽约。公司坚持在AIGC领域, 细分领域从原来的图片转换到视频的编辑与生成。Runway可以支持用户进行图像处理、文本生成图像、更改视频风格、文生视频等多项服务。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。「链接」