作者:赵 宜
OpenAI开发的文(图)生视频模型Sora演示素材发布后,再次在全球范围引发了对生成式人工智能的迭代进化及内容生成能力的关注。它可以根据简单的文本指令生成长达60秒的高质量视频。这些视频不仅背景细致,还包含复杂的多角度镜头和富有情感的角色,并根据相应的物理原理在时空上向过去或未来推演。
其在演示视频中展现出色的运动连贯性、时空统一性和形象逼真性,对传统意义上的视听内容生产行业形成了极大挑战,一时间,如“未来电影不再需要人类创意”“新闻业将消失”等标题成为自媒体吸引流量的密码,也从侧面反映出了Sora的技术突破确实为内容生产提供了几乎无限的可能性。
多模态视频生成与新的世界模拟器
2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力,确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强调模拟人类语言理解和生成方面的先进能力,为知识创造和信息传递开辟了新途径。通过其对话能力,大语言模型不仅改善了人机交互的自然度和效率,而且推动了以用户查询为中心的信息生成和交流新方式。
在此后一段时间,围绕基于大语言模型的多模态模型的探索尤为突出,如文生图、文生音乐等应用,这些模型通过整合视觉、文本等多种信息形式,丰富了AI的理解和表达能力,为构建更加细致和动态的世界模拟器奠定了基础,标志着今天的研发重点正向着通过人工智能生成复杂、多维世界的全面理解和再现迈进。
其中,文生视频或图生视频的应用一直作为主要的研发热点暗流涌动。2023年底,谷歌的多模态模型Gemini1.0正式上线。在其技术报告的描述中,Gemini基于Transformer架构,同时在图像、音频、视频和文本数据中进行训练,目的是使模型既具有跨模态的强大通用能力,又有尖端的理解和推理能力;此后推出的WALT利用扩散模型和Transformer架构突破性解决了AI对视频对象的时间逻辑理解难题。2024年,OpenAI经历了戏剧性的“宫斗”戏码后,突然爆炸性地推出了在视频长度和稳定性上都形成突破的Sora。
Sora对三维空间、因果关系和物理逻辑等人类理解要素的模拟,使对生成式大模型的讨论被推进到了“世界模拟器”的层面,即对现实世界物理时空的模拟生成,也再次激活了一度受到冷落的元宇宙场景概念。但就像由数字图像技术带来的“后真相”问题一样,作为世界模拟器的人工智能技术势必引发生成内容真实性的一系列伦理、道德和法律问题,并成为讨论的核心。而另一方面,在Sora展现出内容创造力的同时,也暴露出了更深层次的困境:当前广泛流传的Sora生成视频片段中,尽管开发者已经尝试性地融入了非西方文化元素,但依赖于西方中心化的数据源,其生成内容的审美重点却仍然深受欧美影视文化与视觉文化影响。
如果我们认为多模态生成视频的应用将作为世界模拟器发挥其潜力,那么这样的文化偏向就需要引起我们的重视。考虑到上一轮世界模拟器媒介——电影,特别是数字时代的电影——以的表现,我们就不能轻信“技术是中立的”这样的论调,而应正视今天AIGC实践中正在渐渐呈现出的这些问题。
数字图形技术与电影的偏见
现代电影的全球技术、产业与美学在1970年代确定下来。与新好莱坞电影的产业和市场体系确立下来几乎同时,北美为中心的计算机图形学研究也发生了重要的产业转移。随着越战后美国政府对军工领域的计算机图形学研究经费投入大幅削减,这个领域迎来了新的投资人:1972年,汇聚了该领域顶尖科学家的P/DP小组在犹他大学成立,标志着计算机图形学的研究重心从麻省理工学院逐渐转向了西海岸,好莱坞开始持续在这一领域投入资金,著名的3D艺术品“犹他茶壶”就在这一时期诞生;1974年,Triple-I公司建立了图形产品组,并进一步将计算机图形学的应用从学术研究推向了商业领域,特别是电影制作。Triple-I利用大型工业计算机PDP-10为《西部世界》和《星球大战》等电影制作了数字图形,也创作了如《亚当斯一家》和《电子世界争霸战》这样的数字动画短片。这一时期,既是计算机图形学在技术和应用的进步时期,也是计算机科学的研发重点向民用和娱乐产业倾斜的时期。
于是,改由好莱坞牵头的计算机图形学研发和应用,站在冷战时期欧美计算机科学研发的优势基础之上,成为全球引领性的科创单位。这一技术优势经由1970—1980年代形成的好莱坞全球市场,经历了1990年代的“好莱坞数字之夏”。以三维动画为代表的数字动画,成为了新世纪以后视听领域再现世界的最主流手段。
从技术审美的角度来看,一方面,好莱坞在《侏罗纪公园》和《泰坦尼克号》等电影中突破了数字形象与真实影像之间时空统一的表现难题,并进而在以皮克斯为代表的三维动画实践中完成了全三维动画图形呈现(《玩具总动员》系列)和越发精确的物理逻辑呈现(《怪兽公司》系列);好莱坞也在新千年头十年开始推动电影胶片的数字化转型,以更符合数字影像技术便利与经济效益的DCP储存制式以及三维数字化的放映单位,确立了全球影视行业新的制播技术标准;并在新世纪第二个十年以后,确立了以无限逼近真实效果的三维数字动画为主流的全球视听影像的审美范式。在第一部全三维动画长片《玩具总动员》中对犹他茶壶的彩蛋式致敬,确证了这一“犹他大学—好莱坞—皮克斯”的研发、应用、传播体系。
正是因其在1970年代技术研发上的先发优势,好莱坞迅速占领了上一代世界模拟器的话语权和审美决定权。如果观察一下这一时期全球主流影视作品的审美倾向就能发现,即便是取材于特定国家和民族的故事素材,在进行影视化表现,尤其要运用三维动画技术时,总会呈现出好莱坞化或皮克斯化的审美倾向——如改编自《山海经》故事的中国电影《捉妖记》中,妖兽的形象却是典型的“怪物史莱克”式的。在三维动画领域,好莱坞依靠其经济和技术优势引领,决定着文化与审美表达的偏向。
因此,即便在近二十年的动画技术史上,有着例如三维转二维或最近的粒子三维等技术与美学方面的单点创新,但以三维动画为主要表现手段的计算机图形学依旧是这一阶段生成“世界模拟器”的整体性技术媒介,并通过这一技术中介物,左右我们对世界的认识方式。
文化出海应包括数据出海,语料库是未来文化软实力
如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮克斯”系统的延续。不仅Sora所代表的、目前吸引了全球目光的多模态视频生成模型延续了电影工业的视觉文化偏向,事实上,从ChatGPT这样的大语言模型的应用实践中,也已有学者发现了目前主流大语言模型中普遍存在的数据选择偏见,即由选择构成训练语料库的文本语言偏见问题。简单说,即以英语为主要训练语料库的大语言模型中,其使用“母语”的任务完成度更高,并优先基于英语世界的文化逻辑或意识形态逻辑进行“思考”与回应。
今天的多模态模型,无论是Dell-E、Midjourney等文生图模型,还是Sora等视频生成模型,其产生高质量视觉内容的语料库前提,依旧以“犹他大学—好莱坞—皮克斯”的美学系统为基础。若我们在今天已经建立起了多模态生成模型将成为未来世界模拟器的一般认识,那么对这一问题的回应就变得迫切起来。
事实上,数据要素化与语料库建设正是这一轮以人工智能技术为核心的全球技术、文化竞争中的“软实力”。正如郑永年指出的,当前中国互联网公司、硬件发展都不输于美国,但中国发展人工智能的短板,主要体现在数据质量方面。这首先意味着我们在当下讨论“文化出海”时,也要考虑“数据出海”,跨文化交流必须包括数据交流。来自中国的要素化数据应更主动参与全球生成式人工智能的语料库建设,参与内容生成,确保AI训练数据的多样性和平衡性。
另一方面,建设高质量的中国文化数据库——包含广泛的语言、文化、历史和艺术等方面的数据——将成为这一轮人工智能文化交往与世界模拟器建设中的核心竞争力。这既是对中华优秀传统文化进行创造性转化和创新性发展的最前沿任务,也是在“人工智能+”时代从源头上保证技术自主可控、维护文化领域意识形态安全的迫切需要。
(作者为上海师范大学影视传媒学院教授)
来源: 文汇报