AIGC 既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合;AIGC 根据面向对象、实现功能的不同可分为三个层次。
一是智能数字内容孪生,其主要目标是建立现实世界到数字世界的映射,将现实世界中的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进行数字化。
二是智能数字内容编辑,其主要目的是建立数字世界与现实世界的双向交互。在数字内容孪生的基础上,从现实世界实现对虚拟数字世界中内容的控制和修改,同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。
三是智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的 AIGC 产品具备类似甚至超越人的创作能力。以上三个层面的能力共同构成 AIGC 的能力闭环
一方面,AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。另一方面,AIGC 能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,打造经济发展新增长点,为千行百业发展提供新动能。此外,2021 年以来,“元宇宙”呈现出超出想象的发展爆发力;作为数实融合的“终极”数字载体,元宇宙将具备持续性、实时性、可创造性等特征,也将通过 AIGC 加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。早期的 AIGC 技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期AIGC 技术可以完成简单线条、文本和旋律的生成。例如,通过定义复杂的函数方程组,计算机所绘出的函数曲线具备某种美学图样;通过记录大量的问答文本,在面对新的问题时,计算机可以通过检索和匹配的方式生成简单的答案,甚至于改写故事。但是由于缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,早期的 AIGC技术普遍面临所生成的内容空洞、刻板、文不对题等问题。参考人类的内容创作过程,研究人员们提出,理想的 AIGC 算法需要具备对数据内容的学习能力,在理解数据的基础上进行知识与分布的学习,最终实现高质量的内容创作。
深度神经网络在学习范式2和网络结构上的不断迭代极大的提升了人工智能算法的学习能力,从而推动了 AIGC 技术的快速发展。不同于传统人工智能算法,深度学习中的损失函数和梯度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习功能。2012 年,卷积神经网络凭借优秀的学习能力,在当年的 ImageNet 大规模视觉识别挑战赛中一举夺魁,比第二名传统机器学习算法的错误率提升 10.8 个百分点,开启了深度学习时代的序幕。就在紧随其后的 2013 年,深度变分自编码器的提出让 AIGC 技术能力有了极大的进步。对于给定的神经网络,深度变分自编码器要求网络的输出是对于输入内容的重建,通过重参数化等技巧,网络在重建过程中学习训练数据的统计分布。在测试阶段,变分自编码器通过在学习到的统计分布中进行采样,首次能比稳定的生成从未观测过的低分辨率图像。2014 年,一种新的博弈学习范式伴随着生成对抗网络[3]被提出。生成对抗网络由一个生成器和一个判别器组成,判别器致力于不断寻找生成数据和真实数据间的不同,生成器根据判别器的反馈不断完善自身,以求生成真假难辨的内容。得益于双方博弈的学习策略,生成内容的真实性和清晰度都得到了极大的提升,生成对抗网络也被应用于很多内容生成的具体应用。除了变分自编码器和生成对抗网络,强化学习、流模型、扩散模型等学习范式均取得了喜人的进展,这些模型范式在不同场景中各有优势,让 AIGC 技术可以快速地应用到不同的场景和任务中。
深度神经网络的结构升级是推动 AIGC 快速发展的另一主要因素。一方面,实验证明,深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是,随意地增加神经网络规模是行不通的,越大规模神经网络往往意味着更大的训练难度,因此深度神经网络的结构设计
显得尤为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了 AIGC 技术能力的质变,在新型网络结构的加持下,上述的生成对抗网络等算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。另一方面,研究者们在深度神经网络结构的设计中引入包含语义的隐式表达和物理知识,以降低模型的训练难度、增强生成内容的丰富程度。例如,研究者发现通过在神经网络的每一层引入隐式表达,能够极大地提升内容生成算法的可控性和生成效果。另外,在三维数据的生成任务中,神经辐射场[8]在网络结构设计时充分考虑了物理世界的固有约束,极大提升了三维渲染效率和效果。AIGC 要真正发挥对不同行业的驱动作用,需要与各行各业的特异性场景深度融合。在处理这些实际应用中,深度学习算法在感知、认知、模仿、生成等方向的基础能力决定了 AIGC 技术所能创作的生产力。近些年中,这些算法技术齐头并进、百花齐放,并最终形成了AIGC 应用于不同场景的底层支撑。通过人工智能支撑技术的不断升级,AIGC 技术将持续赋能各类文化创意、生产生活、科学发现等各种场景。AIGC 既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合;AIGC 根据面向对象、实现功能的不同可分为三个层次。
一是智能数字内容孪生,其主要目标是建立现实世界到数字世界的映射,将现实世界中的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进行数字化。
二是智能数字内容编辑,其主要目的是建立数字世界与现实世界的双向交互。在数字内容孪生的基础上,从现实世界实现对虚拟数字世界中内容的控制和修改,同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。
三是智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的 AIGC 产品具备类似甚至超越人的创作能力。以上三个层面的能力共同构成 AIGC 的能力闭环
一方面,AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。另一方面,AIGC 能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,打造经济发展新增长点,为千行百业发展提供新动能。此外,2021 年以来,“元宇宙”呈现出超出想象的发展爆发力;作为数实融合的“终极”数字载体,元宇宙将具备持续性、实时性、可创造性等特征,也将通过 AIGC 加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。早期的 AIGC 技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期AIGC 技术可以完成简单线条、文本和旋律的生成。例如,通过定义复杂的函数方程组,计算机所绘出的函数曲线具备某种美学图样;通过记录大量的问答文本,在面对新的问题时,计算机可以通过检索和匹配的方式生成简单的答案,甚至于改写故事。但是由于缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,早期的 AIGC技术普遍面临所生成的内容空洞、刻板、文不对题等问题。参考人类的内容创作过程,研究人员们提出,理想的 AIGC 算法需要具备对数据内容的学习能力,在理解数据的基础上进行知识与分布的学习,最终实现高质量的内容创作。
深度神经网络在学习范式2和网络结构上的不断迭代极大的提升了人工智能算法的学习能力,从而推动了 AIGC 技术的快速发展。不同于传统人工智能算法,深度学习中的损失函数和梯度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习功能。2012 年,卷积神经网络凭借优秀的学习能力,在当年的 ImageNet 大规模视觉识别挑战赛中一举夺魁,比第二名传统机器学习算法的错误率提升 10.8 个百分点,开启了深度学习时代的序幕。就在紧随其后的 2013 年,深度变分自编码器的提出让 AIGC 技术能力有了极大的进步。对于给定的神经网络,深度变分自编码器要求网络的输出是对于输入内容的重建,通过重参数化等技巧,网络在重建过程中学习训练数据的统计分布。在测试阶段,变分自编码器通过在学习到的统计分布中进行采样,首次能比稳定的生成从未观测过的低分辨率图像。2014 年,一种新的博弈学习范式伴随着生成对抗网络[3]被提出。生成对抗网络由一个生成器和一个判别器组成,判别器致力于不断寻找生成数据和真实数据间的不同,生成器根据判别器的反馈不断完善自身,以求生成真假难辨的内容。得益于双方博弈的学习策略,生成内容的真实性和清晰度都得到了极大的提升,生成对抗网络也被应用于很多内容生成的具体应用。除了变分自编码器和生成对抗网络,强化学习、流模型、扩散模型等学习范式均取得了喜人的进展,这些模型范式在不同场景中各有优势,让 AIGC 技术可以快速地应用到不同的场景和任务中。
深度神经网络的结构升级是推动 AIGC 快速发展的另一主要因素。一方面,实验证明,深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是,随意地增加神经网络规模是行不通的,越大规模神经网络往往意味着更大的训练难度,因此深度神经网络的结构设计
显得尤为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了 AIGC 技术能力的质变,在新型网络结构的加持下,上述的生成对抗网络等算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。另一方面,研究者们在深度神经网络结构的设计中引入包含语义的隐式表达和物理知识,以降低模型的训练难度、增强生成内容的丰富程度。例如,研究者发现通过在神经网络的每一层引入隐式表达,能够极大地提升内容生成算法的可控性和生成效果。另外,在三维数据的生成任务中,神经辐射场[8]在网络结构设计时充分考虑了物理世界的固有约束,极大提升了三维渲染效率和效果。AIGC 要真正发挥对不同行业的驱动作用,需要与各行各业的特异性场景深度融合。在处理这些实际应用中,深度学习算法在感知、认知、模仿、生成等方向的基础能力决定了 AIGC 技术所能创作的生产力。近些年中,这些算法技术齐头并进、百花齐放,并最终形成了AIGC 应用于不同场景的底层支撑。通过人工智能支撑技术的不断升级,AIGC 技术将持续赋能各类文化创意、生产生活、科学发现等各种场景。