探索AIGC：开卷3D视频生成与生成式AI的前沿思考

发表时间: 2024-04-19 17:43

AIGC的热潮，已经开卷视频了。

年初，OpenAI推出的人工智能文生视频大模型Sora成为一大亮点。数月之后，文生3D视频领域再次掀起新浪潮。这次，AI科技公司魔珐科技带着文生3D视频产品“有言”登场。

除了直接开放官网用户注册、使用通道，便于大家都能试用，在创新理念和技术实力之外，“有言”也向业界抛出了一些值得深思的问题。

第一问：狂热VS清醒，AI视频生成大模型要颠覆视频行业？

众所周知，Sora仅凭几个视频的发布，立即轰动全球AI领域，在技术圈点燃了大家关于视频大模型的热烈讨论，甚至被自媒体专家誉为“通用人工智能AGI实现的标志”。然而，除了视频行业的专业人士和西方技术圈的精英，大部分人对Sora的评价似乎过于乐观。

用OpenAI官方的话来说，Sora实现了对物理世界极强的模拟能力。但是，这并不意味着Sora无所不能，它在模拟复杂场景和因果关系方面仍显不足，尽管在时空一致性上有所提升，却存在局限。

与其他AI视频生成工具相比，Sora的革新更多体现在量的积累而非质的飞跃。除官方demo外，Sora也为媒体开放试用。彭博社记者的试用过程中，Sora曾也暴露出不可控的问题，比如生成的内容与提示词不符，甚至出现荒诞的场景，如一只猴子长出了鹦鹉的翅膀。

因此，目前Sora的可用性受到质疑，它距离满足企业实际需求并实现商用落地似乎还有一段距离。

此背景下，“有言”带来了更多新的思考。例如，如何提升AI视频生成产品的可控性，使其更贴近用户需求，更准确地生成符合预期的内容，这无疑是一个值得深入探讨的问题。

从用户实际的应用需求来看，打开“有言”的官方网站，注册后即可申请试用。在操作上，一方面，“有言”实现了对生成视频内容和时长的精准控制，更保证了视频角色、场景、灯光的高度一致性。另一方面，“有言”开放了部分功能的编辑权限，从而能够更精确地呈现视频内容。

简单来说，用户通过“有言"能够便捷地生成视频脚本文案，完成视频剪辑，还能进行音效、配乐、字幕包装等后期制作环节，无需在多个AI工具间频繁切换，直接就能生产出高质量的视频作品。现阶段，“有言"将最难视频要素AIGC化，比如脚本、动画、运镜、灯光、声音等要素的AIGC化，而部分视频要素采取UGC模版库的方式供用户选择，未来将最终实现AIGC everything。但这对文生视频产品而言，已经在产品化和实际应用中的落地使用迈出了坚实的一步。

第二问：AIGC视频生成大爆发，带来危机还是创造机遇？

在文生视频大模型领域，并非OpenAI的Sora一枝独秀，Runway、Pika、Stable Video Diffusion等众多AI创业公司也在此赛道上竞相角逐，打得火热。早前Sora的发布之所以引发如此巨大的轰动与热议，皆因其取得了突破性的进展，实现了AI领域新一代生产力工具的愿景。

如今，AI视频生成领域经历了翻天覆地的变革，大家将更多的目光转向AIGC时代的创作工具。回溯视频行业的发展脉络，不难发现：PGC时代依赖专业团队与设备；UGC时代降低了拍摄门槛，但企业仍受限于质量要求；如今进入AIGC时代，工具的出现让创作门槛更低、质量更高，彻底颠覆视频制作流程，解决短视频供给不足问题。

AIGC无疑是视频行业生产力革命的必然趋势，同时也是企业解决视频时代内容瓶颈的绝佳选择。AIGC技术工具的推出，虽然给行业带来了一定的挑战，但更多的是推动了内容形态的升级，为各行各业注入了前所未有的想象力与创造力。

那么，在AIGC时代现世的“有言”，在产品易用性、商业场景等方面带来了什么？

在操作层面，“有言”简洁明了的操作界面，AIGC生成的流畅视频以及完善的一站式视频创作功能受到了大家的青睐，配合内置的海量视频模板案例库，使用户能够轻松选择对应场景，并通过简单的修改，快速生成个性化的视频作品。无论是企业品牌推广、社媒运营，还是产品营销、企业内训，甚至涉及广电传媒、知识分享、K12教育、电商、本地生活等多个领域，“有言”都能灵活应对，展现出强大的适应性。特别是在需要高效、精准传达信息的场合中，“有言”更是凭借其出色的性能，赢得了用户的广泛赞誉。

在商业价值方面，“有言”的应用价值已经得到了市场的充分验证。在产品正式推向公众之前，已有近50家来自不同行业的领军企业提前付费购买了企业旗舰版产品，包括东吴证券、海尔集团、苏州广电、爱尔眼科、自然堂、斯凯奇、中伦律所等众多知名品牌，覆盖金融、3C、广电、美护、律所、文旅等多个行业领域。这一卓越成绩不仅凸显了“有言”产品的卓越品质，更预示着其在未来市场上的无限潜力和广阔前景。

在实际应用层面，“有言”也得到了客户的检验。“有言”通过深度嵌入海尔集团的中台系统，全面赋能其营销、平台服务、研发、电商、数字化等多条业务线，展现出了强大的应用潜力和广阔的市场前景。应海尔集团要求，首批为其开通了100个账号，覆盖集团内的六大职能部门，服务人数超过400人。短短两个月内，海尔集团利用“有言”高效生产了600多支业务线视频，总时长近3000分钟，平均每日产出视频数量高达30余支。不仅大幅提升海尔的视频内容生产能力，更使培训类视频的制作成本降低了50%。

除此之外，美妆品牌自然堂也通过“有言”实现了视频内容的高效生产。在短短两周多的时间内，自然堂各部门便利用“有言”制作了数百支种草视频、产品讲解视频以及内部培训视频，极大地提升了品牌传播效果和内部培训效率。

第三问：埋头赶路还是弯道超车，国产AI视频生成的机会在哪里？

随着大模型技术的不断演进和突破，自去年起，国内科技公司纷纷投身于大模型的研发浪潮中，力求在这一前沿领域取得突破。今年Sora横空出世后，更是让许多企业压力倍增，他们开始担忧自身在大模型研发上的进度和成果是否能与Sora相媲美。

从技术底层逻辑来看，Sora确实展现出了独特的优势。它巧妙地结合了基于ChatGPT技术的Transformer模型与文生视频的Diffusion Model，成功实现了文本到视频的转化功能。然而，这种转化主要依赖于猜测与计算，而非深入的逻辑分析，因此在视频生成过程中，Sora面临着时空一致性、可控性、编辑性、确定性以及时长控制等诸多挑战。

并且，目前Sora仅停留在demo阶段，尚未推出商业化产品供用户体验。即便假设Sora能够推出成熟产品，其高昂的算力成本也将成为商业化的难题。因此，在追求技术创新的同时，也需要考虑如何降低成本，提高产品的实用性和商业化潜力。

此外，2D数字人和3D虚拟人之间的讨论也接连不断。

一方面，虽然2D数字人视频技术能够模拟真实的对话场景，但其AIGC能力仍然有所欠缺，无法轻易改变数字人的形象或创造出3D场景。另一方面，由于3D技术壁垒和门槛极高，涉足其中的企业寥寥无几。对于技术公司来说，获取高质量的3D数据尤为艰难。相较于图文视频数据的易得性，3D数据显得尤为稀缺且难以捕捉，其制作往往需要内容创作者的匠心独运，成本高昂。

要实现国产AI视频生成，除了大模型路径外，是否能在深入研究和挖掘自己的市场环境和技术优势后，拥有一条其他可行的技术路径呢？

差异化之下，“有言”采用基于三维图形学和AIGC技术的路径，与现实世界的视频制作流程对应起来。

具体来说，这一技术路径与Pika、Runway和Sora存在明显的区别：

在时空一致性上，Pika和Runway在视频生成上时空连贯性不佳。相比之下，“有言”采用基于三维图形学和AIGC的技术路径，通过实时物理引擎将3D内容转化为2D视频，能够更好地模拟真实世界的时空连贯性。
在内容可控性与确定性上，现有文生视频产品如Sora在这方面存在不足，而“有言”的三维图形学和AIGC技术使其生成的3D内容更具可控性和确定性。
在视频时长上，早期文生视频产品生成的视频普遍较短，Sora虽有所提升，但完整视频生成仍具挑战。“有言”虽然通过其技术路径提升了视频生成的质量，但在时长方面仍有待进一步突破。
在产品完整性上，现有文生视频产品在“满足创作者一站式需求”这一方面有所欠缺，而“有言”通过其技术路径和实时物理引擎，为创作者提供了更全面的解决方案，但仍需不断优化以满足更多需求。

值得一提的是，“有言”作为基于三维图形学和AIGC技术的产品，与生成2D视频的文生视频产品存在显著差异。这种技术差异使得“有言”能够生成适配VR/AR的内容，为未来的metaverse虚拟3D世界提供了更多可能性。

如今，“有言”已经将3D视频生成落地，AIGC技术的飞速进步正以前所未有的速度引领我们迈向3D互联网的新纪元。随着技术的不断创新与融合，其应用落地正逐步从美好愿景转化为触手可及的现实。

未来，魔珐科技如何在自身的技术领域深耕细作，不断突破技术瓶颈，为3D内容AIGC生成领域的发展注入源源不断的创新动力，我们拭目以待。

探索AIGC：开卷3D视频生成与生成式AI的前沿思考

第一问：狂热VS清醒，AI视频生成大模型要颠覆视频行业？

热门阅读

推荐阅读