上个月,当 OpenAI 发布其最新视频生成模型 Sora 时,它邀请了一些电影制作人进行尝试。
本周,该公司公布了结果:七部超现实短片诞生了。毫无疑问,视频生成的未来正在迅速到来。
2022 年末,Meta、谷歌和视频科技初创公司 Runway 等公司推出了第一批可以将文本转化为视频的模型。
这个想法很巧妙,但结果却很粗糙,他们的模型总会出现小瑕疵,而且成果只有几秒钟的时间。
18 个月后,Sora 带来了高清而逼真的视频,惊艳众人,以至于一些激动的观察者预测好莱坞会走向消亡。
此外,Runway 的最新模型可以制作出与大型动画工作室相媲美的短片。Midtravel 和 Stability AI 这两家最受欢迎的文本到图像模型背后的公司也在开发视频生成模型。
许多公司正竞相尝试将这些最前沿的技术商业化,不过大多数人仍在思考其商业模式是什么。
Vyond,一家制作动画短视频的公司,其 CEO 加里·利普维茨(Gary Lipkowitz)说:“当我使用这些工具时,我经常感叹,‘天哪,它太酷了’。但你怎样才能在工作中用到它呢?”
无论这个问题的答案是什么,它都可能颠覆许多商业形式,并改变许多专业人士的角色,包括动画师和广告商。
同时,人们对技术滥用的担忧也在增加,因为制作假视频的能力得到了极大地提升,使得虚假宣传和深度伪造色情等内容会比以往任何时候都更容易出现在互联网上。
我们可以预见这些挑战。但问题是,现在还没有人能很好地解决它们。
随着我们继续抱着“走一步,看一步”的心态朝着未来前进,好事和坏事都会发生。如果你想了解视频生成技术的未来,我希望你能深入思考下面这四件事。
Sora 只是一个开始
OpenAI 的 Sora 目前在视频生成能力方面遥遥领先于竞争对手,但其他公司正在努力追赶。
在接下来的几个月里,越来越多的公司将升级自己的技术并推出 Sora 的竞品,视频生成领域将变得极其热闹。
英国初创公司 Haiper 本月正式脱离“隐身模式”。它由前谷歌 DeepMind 和 TikTok 研究人员于 2021 年创立,他们主要研究一种名为 NeRF 的技术,该技术可以将 2D 图像转换为 3D 虚拟环境。
他们认为,一款将图片转化为用户可以进入的场景的工具对制作游戏很有用。
但六个月前,Haiper 从虚拟环境转向视频生成。此次转型是为了适应其 CEO 苗亦舒(Yishu Miao)的最新想法,并瞄准比游戏更大的市场。
苗亦舒说:“我们意识到视频制作是一个更好的领域,(人们)对它的需求将非常高。”
与 Sora 一样,Haiper 的视频生成技术使用扩散模型(diffusion model)来管理视觉效果,并使用 Transformer(GPT-4 等大型语言模型中的组件,非常善于预测接下来会出现什么)来管理视频帧之间的一致性。
苗亦舒说:“视频是就是数据序列,而 Transformer 是学习序列的最佳模型。”
一致性是视频生成领域的一大挑战,也是现有工具一次只生成几秒钟视频的主要原因。
用于视频生成的 Transformer 可以提高输出视频的质量和时长,但副作用是它会“胡编乱造”一些东西,也就是产生所谓的“幻觉”。
在文本内容中,幻觉并不总是显而易见的。但在视频中,一些违背常识的东西可能会十分扎眼,比如它可能会让一个人有多个脑袋。保持 Transformer 正常运行还需要大量的训练数据和强大的算力。
这就是为什么由前微软研究人员创立的 Irreverent Labs 正在采取不同的方法。
和 Haiper 一样,Irreverent Labs 在转向视频生成之前,研究的方向也是为游戏生成虚拟环境。但该公司不想效仿 OpenAI 和其他公司的做法。
Irreverent Labs 的联合创始人兼首席技术官大卫·拉斯金诺(David Raskino)表示:“因为这是一场算力之战,一场 GPU 之战。
在这种情况下,只有一个赢家,提示:他总是穿着皮夹克。”(答案:万亿芯片巨头英伟达的 CEO 黄仁勋。)
Irreverent Labs 的技术没有使用 Transformer,而是将扩散模型与基于物理常识预测下一帧内容的模型相结合,例如球如何反弹或水如何在地上溅起。
拉斯基诺说,这种方法既减少了训练成本,也减少了幻觉发生的次数。他说,该模型仍然会产生小瑕疵,但它们多是物理问题,例如反弹的球没有遵循正确的曲线,因此可以在视频生成后引入数学来修正。
哪种方法会成为最后的胜利者还有待观察。苗亦舒将今天的视频生成技术水平与 GPT-2 时的大型语言模型进行了比较。
五年前,OpenAI 开创性的早期模型让人们感到惊讶,因为它展示了可能的发展方向。但这项技术又花了几年时间才彻底改变了游戏规则。
苗亦舒说:“我们还都在山脚下。”
人们将如何使用生成的视频?
视频是互联网上最常见的媒介。YouTube、TikTok、新闻短片和广告,由人工智能生成的视频将出现在所有可以播放视频的地方。
营销行业是最热衷于采用生成式技术的行业之一。Adobe 最近在美国进行的一项调查显示,三分之二的专业营销人员在工作中尝试过生成式人工智能,超过一半的人表示他们使用过这项技术来制作图像。
人工智能生成的视频将是下一个热点。一些营销公司已经制作了短片来展示这项技术的潜力。
最新的例子是 Myles 广告公司创作的 2 分半时长的《索姆安魂曲》(Somme Requiem)。
《索姆安魂曲》描绘了 1914 年第一次世界大战圣诞节停火期间被雪围困的士兵。
这部短片由数十个不同的镜头组成,这些镜头是用 Runway 的视频生成模型制作的,然后由 Myles 公司的视频编辑拼接在一起,进行颜色校正,并配上音乐。
Myles 创始人兼 CEO 乔什·卡恩(Josh Kahn)表示:“讲故事(电影)的未来将是一个混合的工作流程。”
卡恩选择了战争场面来表明自己的观点。他指出,苹果 TV+ 出品的美剧《空中大师》耗资 2.5 亿美元,讲述了一群二战飞行员的故事。
彼得·杰克逊(Peter Jackson)的第一次世界大战纪录片《他们已不再变老》的幕后团队花了四年时间策划和修复了 100 多个小时的旧电影。
卡恩说:“大多数电影制作人只能梦想有机会讲述这种类型的故事。”
“独立电影制作已经日渐式微了。”他补充道,“我认为这(技术)将创造一个令人难以置信的复苏。”
拉斯基诺希望如此。他说:“恐怖电影是人们测试和尝试新事物的首选,一直测试到它们的极限。
我想我们会看到一部轰动的恐怖电影,由四个人在某个地下室使用人工智能创作出来的。”
那么,视频生成技术会杀死好莱坞吗?目前还不会。《索姆安魂曲》中的场景,包括空旷的树林和荒凉的军营,看起来都很棒,但里面的人仍然存在手指错位和面部扭曲等问题,这是该技术的标志性短板。
视频生成技术最擅长广角平移或特写镜头,这适合用来营造氛围,但其中几乎没有任何动作。如果《索姆安魂曲》以现有风格延续下去,它就会变得乏味。
但在长篇电影中,定场镜头总是会出现。大多数只有几秒钟长,但拍摄起来可能需要几个小时。
拉斯基诺建议,视频生成模型可以很快用于制作这些镜头,成本只有现在的一小部分。这也可以在电影制作的后期阶段完成,而不需要重新拍摄。
Gen Digital 的首席技术官米哈尔·佩乔切克(Michal Pechoucek)对此表示赞同。Gen Digital 是一家网络安全巨头,旗下拥有包括 Norton 和 Avast 在内的一系列杀毒软件。
“我认为这就是技术的发展方向。”他说,“我们将看到许多不同的模型,每个模型都是针对电影制作的特定领域专门训练的。这些只是有才华的视频制作团队使用的工具。”
我们还没发展到那步。视频生成技术的一个大问题是用户缺乏对输出内容的控制。现有技术制作静态图像都会出现问题,制作几秒钟的视频则会出现更大的挑战。
苗亦舒说:“现在它仍然很有趣,你会遇到兴奋的时刻。但生成一个你真正想要的视频,是一个非常困难的技术问题。
想要实现用一个提示稳定生成时长足够且一致的视频,我们还有很长的路要走。”
这就是为什么 Vyond 的利普维茨认为这项技术还没有准备好服务大多数企业客户。他说,这些用户希望对视频的形式有更多的控制权,目前的工具还无法实现。
全球数千家公司,包括约 65% 的财富 500 强公司,使用了 Vyond 的平台制作动画短片,用于内部沟通、培训、营销等。
Vyond 采用了一系列生成式模型,包括文本到图像和文本到语音,但它提供了一个简单的拖放界面,用户可以手动将视频一段一段地拼在一起,而不是一键点击生成完整的短片。
利普维茨说,运行一个生成式模型就像掷骰子。“对于大多数视频制作团队来说,这是一个无法接受的问题,尤其是在企业领域,所有像素都必须做到完美无缺,符合品牌特性。”
他说,“如果公司发现视频效果不好,比如角色的手指太多,或者公司标志的颜色不对,很遗憾,这就是生成式人工智能(目前)的工作方式。”
至于怎么解决?只有更多的数据,更多的训练,循环往复。苗亦舒说:“我希望我能指出一些复杂的算法(作为解决方案)。但没有,它需要的只是更多的学习。”
深度伪造会让情况变得更糟
多年来,网络上的错误信息一直在破坏我们对媒体、机构和彼此的信任。一些人担心,在已经很混乱的互联网上,虚假视频会进一步破坏我们对所见事物的信任。
佩乔切克说:“我们正在用不信任、困惑、恐惧和仇恨取代信任。无法看到真相的社会将会堕落。”
佩乔切克特别担心在选举中恶意使用深度伪造。例如,在去年斯洛伐克的选举中,一些人分享了一段假视频,显示民调领先的候选人正在讨论操纵选民的计划。
这段视频质量很差,很容易被发现是深度伪造的。但佩乔切克认为,这足以使选举结果更有利于另一位候选人。
约翰·威辛格(John Wissinger)是 Blackbird AI 公司的战略和创新团队负责人,该公司负责追踪和管理网上错误信息的传播。他认为,当虚假视频融合了真实和虚假的片段时,它将最具迷惑性。
将两段乔·拜登(Joe Biden)总统走过演讲台的视频放在一起。一次他摔倒了,另一次则没有。谁分得清哪个是真的?
威辛格说:“假设一个事件确实发生了,但呈现给我的方式有着微妙的差异。这会影响我对它的情绪反应。”
正如佩乔切克所指出的,假视频甚至不需要多高质量就可以造成影响。威辛格说,一个符合现有偏见的低质量赝品,比一个不符合现有偏见的高质量赝品造成的损害更大。
这就是为什么 Blackbird AI 专注于追踪谁在与谁分享什么。威辛格说,从某种意义上讲,某些东西是真是假,不如它来自哪里以及如何传播重要。
他的公司已在追踪没什么技术含量的错误信息,比如社交媒体上断章取义地展示真实图像的帖子。
他说,生成式技术让事情变得更糟,但人们以误导性的方式展示媒体,无论是有意还是无意的,都不是什么新鲜事。
如果再考虑机器人,以及它们在社交网络上分享和推广的错误信息,事情就会变得更糟。
仅仅知道虚假媒体的存在,就会在恶意言论中播下怀疑的种子。威辛格说:“你可以看到,很快人们就无法区分合成的和真实的(信息)。”
我们面临着一个新的网络现实
假的内容很快就会无处不在,从虚假信息宣传,到广告,再到好莱坞大片。那么,我们能做些什么来弄清楚什么是真实的,什么是虚假的呢?
我们有一系列的解决方案,但必须结合使用,相辅相成,单打独斗是没有效果的。
科技行业正在解决这个问题。大多数生成工具都试图强制执行某些使用条款,例如阻止人们创建公众人物的视频。但有一些方法可以绕过这些过滤器,而且这些工具的开源版本可能会有更宽松的政策。
公司也在开发为人工智能生成的内容添加水印的标准和检测工具,但并非所有工具都会默认添加水印,水印也可以从视频的元数据中抹去。
也不存在 100% 可靠的检测工具,即使这些工具有效,它们也会成为“猫捉老鼠”游戏的一部分,试图追上生成式技术进步的脚步。
像 X 和 Facebook 这样的在线平台没法实现面面俱到的审核。一旦问题变得更加棘手,我们不应该把希望寄托在他们身上。
苗亦舒曾在 TikTok 工作,他帮助建立了一个审核工具,可以检测违反 TikTok 使用条款的视频上传。就连他也对即将发生的事情保持警惕:“网络环境真的很危险,不要轻信你在笔记本电脑上看到的东西。”
Blackbird AI 开发了一种名为 Compass 的工具,可以让你对文章和社交媒体帖子进行事实核查。
在该工具中粘贴链接,一个大型语言模型会生成一段从可信的在线来源提取的内容,为链接中的内容提供背景信息。威辛格表示,这些可信来源一直是可以审查的。
其结果与目前社交媒体上常见的“社区标注”非常相似,这些标注有时会附在 X、Facebook 和 Instagram 等平台的有争议的帖子上。该公司想让 Compass 为所有信息生成社区标注。“我们正在为此努力。”威辛格说。
但是,懂得使用事实核查网站的人已经相当精明了,许多人可能还不知道这些工具的存在,或者可能不愿意信任它们。错误信息的传播范围也往往比随后的任何更正都要广泛。
与此同时,人们仍对这是谁的问题意见不一。佩乔切克说,科技公司需要开放他们的软件,以便在安全和信任方面进行更多的竞争。这意味着让像它这样的网络安全公司开发第三方软件来监管这项技术。
他说,这就是 30 年前 Windows 出现恶意软件问题时发生的事情:“微软让杀毒软件公司来帮助保护 Windows。因此,网络世界变得更安全了。”
但佩乔切克并不乐观。他说:“技术开发人员需要以安全为首要目标来构建他们的工具。但更多人考虑的是如何使这项技术更强大,而不是如何使其更安全。”
科技行业有一句常见的宿命论口号:变革即将到来,面对现实吧。
拉斯基诺说:“生成式人工智能不可能不受欢迎。我的想法可能不太受待见,但我认为这是真的:我不认为科技公司能承担全部责任。
归根结底,对抗任何技术的最佳防御措施是受过良好教育的公众。没有捷径可走。”
苗亦舒对此表示赞同。“我们将不可避免地大量采用生成式技术。”他说,“但这也是整个社会的责任。我们需要教育人们。”
他补充道:“技术将向前发展,我们需要为这一变化做好准备。我们需要提醒我们的父母和朋友,他们在屏幕上看到的东西可能不是真实的。”
他说,对老一辈来说尤其如此:“我们的父母需要意识到这种危险。我认为所有人都应该一起努力。”
我们需要迅速合作。Sora 一个月前问世时,科技界对视频生成技术的发展之快感到震惊。
但绝大多数人甚至还不知道这种技术的存在,威辛格说:“他们显然不了解我们所处的前线状况。我认为这将席卷全球。”
支持:Ren
运营/排版:何晨龙