探索AIGC:开卷3D视频生成与生成式AI的前沿思考

发表时间: 2024-04-19 17:43


AIGC的热潮,已经开卷视频了。

年初,OpenAI推出的人工智能文生视频大模型Sora成为一大亮点。数月之后,文生3D视频领域再次掀起新浪潮。这次,AI科技公司魔珐科技带着文生3D视频产品“有言”登场。

除了直接开放官网用户注册、使用通道,便于大家都能试用,在创新理念和技术实力之外,“有言”也向业界抛出了一些值得深思的问题。

第一问:狂热VS清醒,AI视频生成大模型要颠覆视频行业?


众所周知,Sora仅凭几个视频的发布,立即轰动全球AI领域,在技术圈点燃了大家关于视频大模型的热烈讨论,甚至被自媒体专家誉为“通用人工智能AGI实现的标志”。然而,除了视频行业的专业人士和西方技术圈的精英,大部分人对Sora的评价似乎过于乐观。

用OpenAI官方的话来说,Sora实现了对物理世界极强的模拟能力。但是,这并不意味着Sora无所不能,它在模拟复杂场景和因果关系方面仍显不足,尽管在时空一致性上有所提升,却存在局限。

与其他AI视频生成工具相比,Sora的革新更多体现在量的积累而非质的飞跃。除官方demo外,Sora也为媒体开放试用。彭博社记者的试用过程中,Sora曾也暴露出不可控的问题,比如生成的内容与提示词不符,甚至出现荒诞的场景,如一只猴子长出了鹦鹉的翅膀。

因此,目前Sora的可用性受到质疑,它距离满足企业实际需求并实现商用落地似乎还有一段距离。

此背景下,“有言”带来了更多新的思考。例如,如何提升AI视频生成产品的可控性,使其更贴近用户需求,更准确地生成符合预期的内容,这无疑是一个值得深入探讨的问题。

从用户实际的应用需求来看,打开“有言”的官方网站,注册后即可申请试用。在操作上,一方面,“有言”实现了对生成视频内容和时长的精准控制,更保证了视频角色、场景、灯光的高度一致性。另一方面,“有言”开放了部分功能的编辑权限,从而能够更精确地呈现视频内容。

简单来说,用户通过“有言"能够便捷地生成视频脚本文案,完成视频剪辑,还能进行音效、配乐、字幕包装等后期制作环节,无需在多个AI工具间频繁切换,直接就能生产出高质量的视频作品。现阶段,“有言"将最难视频要素AIGC化,比如脚本、动画、运镜、灯光、声音等要素的AIGC化,而部分视频要素采取UGC模版库的方式供用户选择,未来将最终实现AIGC everything。但这对文生视频产品而言,已经在产品化和实际应用中的落地使用迈出了坚实的一步。


第二问:AIGC视频生成大爆发,带来危机还是创造机遇?

在文生视频大模型领域,并非OpenAI的Sora一枝独秀,Runway、Pika、Stable Video Diffusion等众多AI创业公司也在此赛道上竞相角逐,打得火热。早前Sora的发布之所以引发如此巨大的轰动与热议,皆因其取得了突破性的进展,实现了AI领域新一代生产力工具的愿景。

如今,AI视频生成领域经历了翻天覆地的变革,大家将更多的目光转向AIGC时代的创作工具。回溯视频行业的发展脉络,不难发现:PGC时代依赖专业团队与设备;UGC时代降低了拍摄门槛,但企业仍受限于质量要求;如今进入AIGC时代,工具的出现让创作门槛更低、质量更高,彻底颠覆视频制作流程,解决短视频供给不足问题。

AIGC无疑是视频行业生产力革命的必然趋势,同时也是企业解决视频时代内容瓶颈的绝佳选择。AIGC技术工具的推出,虽然给行业带来了一定的挑战,但更多的是推动了内容形态的升级,为各行各业注入了前所未有的想象力与创造力。

那么,在AIGC时代现世的“有言”,在产品易用性、商业场景等方面带来了什么?

在操作层面,“有言”简洁明了的操作界面,AIGC生成的流畅视频以及完善的一站式视频创作功能受到了大家的青睐,配合内置的海量视频模板案例库,使用户能够轻松选择对应场景,并通过简单的修改,快速生成个性化的视频作品。无论是企业品牌推广、社媒运营,还是产品营销、企业内训,甚至涉及广电传媒、知识分享、K12教育、电商、本地生活等多个领域,“有言”都能灵活应对,展现出强大的适应性。特别是在需要高效、精准传达信息的场合中,“有言”更是凭借其出色的性能,赢得了用户的广泛赞誉。

在商业价值方面,“有言”的应用价值已经得到了市场的充分验证。在产品正式推向公众之前,已有近50家来自不同行业的领军企业提前付费购买了企业旗舰版产品,包括东吴证券、海尔集团、苏州广电、爱尔眼科、自然堂、斯凯奇、中伦律所等众多知名品牌,覆盖金融、3C、广电、美护、律所、文旅等多个行业领域。这一卓越成绩不仅凸显了“有言”产品的卓越品质,更预示着其在未来市场上的无限潜力和广阔前景。

在实际应用层面,“有言”也得到了客户的检验。“有言”通过深度嵌入海尔集团的中台系统,全面赋能其营销、平台服务、研发、电商、数字化等多条业务线,展现出了强大的应用潜力和广阔的市场前景。应海尔集团要求,首批为其开通了100个账号,覆盖集团内的六大职能部门,服务人数超过400人。短短两个月内,海尔集团利用“有言”高效生产了600多支业务线视频,总时长近3000分钟,平均每日产出视频数量高达30余支。不仅大幅提升海尔的视频内容生产能力,更使培训类视频的制作成本降低了50%。

除此之外,美妆品牌自然堂也通过“有言”实现了视频内容的高效生产。在短短两周多的时间内,自然堂各部门便利用“有言”制作了数百支种草视频、产品讲解视频以及内部培训视频,极大地提升了品牌传播效果和内部培训效率。


第三问:埋头赶路还是弯道超车,国产AI视频生成的机会在哪里?

随着大模型技术的不断演进和突破,自去年起,国内科技公司纷纷投身于大模型的研发浪潮中,力求在这一前沿领域取得突破。今年Sora横空出世后,更是让许多企业压力倍增,他们开始担忧自身在大模型研发上的进度和成果是否能与Sora相媲美。

从技术底层逻辑来看,Sora确实展现出了独特的优势。它巧妙地结合了基于ChatGPT技术的Transformer模型与文生视频的Diffusion Model,成功实现了文本到视频的转化功能。然而,这种转化主要依赖于猜测与计算,而非深入的逻辑分析,因此在视频生成过程中,Sora面临着时空一致性、可控性、编辑性、确定性以及时长控制等诸多挑战。

并且,目前Sora仅停留在demo阶段,尚未推出商业化产品供用户体验。即便假设Sora能够推出成熟产品,其高昂的算力成本也将成为商业化的难题。因此,在追求技术创新的同时,也需要考虑如何降低成本,提高产品的实用性和商业化潜力。

此外,2D数字人和3D虚拟人之间的讨论也接连不断。

一方面,虽然2D数字人视频技术能够模拟真实的对话场景,但其AIGC能力仍然有所欠缺,无法轻易改变数字人的形象或创造出3D场景。另一方面,由于3D技术壁垒和门槛极高,涉足其中的企业寥寥无几。对于技术公司来说,获取高质量的3D数据尤为艰难。相较于图文视频数据的易得性,3D数据显得尤为稀缺且难以捕捉,其制作往往需要内容创作者的匠心独运,成本高昂。

要实现国产AI视频生成,除了大模型路径外,是否能在深入研究和挖掘自己的市场环境和技术优势后,拥有一条其他可行的技术路径呢?

差异化之下,“有言”采用基于三维图形学和AIGC技术的路径,与现实世界的视频制作流程对应起来。

具体来说,这一技术路径与Pika、Runway和Sora存在明显的区别:

  • 在时空一致性上,Pika和Runway在视频生成上时空连贯性不佳。相比之下,“有言”采用基于三维图形学和AIGC的技术路径,通过实时物理引擎将3D内容转化为2D视频,能够更好地模拟真实世界的时空连贯性。

  • 在内容可控性与确定性上,现有文生视频产品如Sora在这方面存在不足,而“有言”的三维图形学和AIGC技术使其生成的3D内容更具可控性和确定性。

  • 在视频时长上,早期文生视频产品生成的视频普遍较短,Sora虽有所提升,但完整视频生成仍具挑战。“有言”虽然通过其技术路径提升了视频生成的质量,但在时长方面仍有待进一步突破。

  • 在产品完整性上,现有文生视频产品在“满足创作者一站式需求”这一方面有所欠缺,而“有言”通过其技术路径和实时物理引擎,为创作者提供了更全面的解决方案,但仍需不断优化以满足更多需求。

值得一提的是,“有言”作为基于三维图形学和AIGC技术的产品,与生成2D视频的文生视频产品存在显著差异。这种技术差异使得“有言”能够生成适配VR/AR的内容,为未来的metaverse虚拟3D世界提供了更多可能性。

如今,“有言”已经将3D视频生成落地,AIGC技术的飞速进步正以前所未有的速度引领我们迈向3D互联网的新纪元。随着技术的不断创新与融合,其应用落地正逐步从美好愿景转化为触手可及的现实。

未来,魔珐科技如何在自身的技术领域深耕细作,不断突破技术瓶颈,为3D内容AIGC生成领域的发展注入源源不断的创新动力,我们拭目以待。