AI赋能音视频创作:一键生成的大模型时代

发表时间: 2024-06-11 16:25

今年的政府工作报告提出,要大力推进现代化产业体系建设,加快发展新质生产力。其中提到要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。

“通用人工智能产业发展22条”发布不久,广东做出“加快培育人工智能等新兴产业,大力发展新质生产力”的新年部署。南都大数据研究院开展“粤来粤AI”大型研究,以多个篇章描摹发展现状,考量应用实效,研判治理风险,助力广东加快建设通用人工智能产业创新引领地,协同探索人工智能监管模式创新。本次推出“有AI应用篇”系列报道,走访广东人工智能相关企业,揭秘那些与我们工作生活息息相关的AI应用产品的研发故事。

第七期,走进广东数字创意软件厂商——万兴科技,看AI如何实现音视频创作“一键化”,助力加快赋能“AI+”产业发展,迈进生成式智能创作时代。

进入音视频创作领域,AI还能怎么玩?近期,一档现象级音乐综艺节目播出,而据透露,节目片头中部分画面便是由国内首个音视频多媒体大模型支持生成。

这个音视频大模型来自一家有着“中国版Adobe”之称的科技公司。在广东,这家公司正助力国产文生视频大模型加速从“实验室”迈向实际应用,加快赋能“AI+”产业发展,推动音视频创作行业逐步从人工编辑迈进生成式人工智能创作时代。

有AI产品:音视频创作大模型

产品特性:

以天幕大模型为主的AI生成式创作,提供文生主题视频、视频风格化、视频配乐、数字人播报等多媒体能力;赋能以万兴喵影/Wondershare Filmora为代表的实用创作,提供AI绘画、AI Copilot智能剪辑助手、AI文字快剪、智能人声分离、智能遮罩、智能补帧、AI视频翻译等工具能力;

应用场景:

传媒影视、自媒体创作、电商运营、教育培训等。

使用效果:

每次编辑视频都能缩短数小时的时长,提升用户视频编辑效率和视频质量,革新视频创作范式。

助力实现降本增效提质

赋能“AI+”产业大发展

音视频创作覆盖内容构思、内容资源搜索、效果编辑、效果生成、运算&渲染、合成&编辑等流程,整体链路长、门槛高。“平均制作1个视频需要1.6h+,”万兴科技董事长吴太兵曾公开表示,但在生成式AI的全面赋能下,视频生成尚处于早期探索阶段,特别是在视频长度、逼真度和连贯性这三个关键维度上,能够真正达到商用标准的产品并不多见。不过,这也让视频生成领域成为AI发展的重要突破口。

万兴科技推出的万兴“天幕”是音视频领域中具有代表意义的垂直大模型。据了解,万兴“天幕”已迭代超百项音视频原子能力,包括文生主题视频、视频风格化、视频配乐、数字人播报等多媒体能力。其中文生视频能力方面,已实现不同风格、丰富场景及主题的连贯性,且一键生成时长支持60秒+。

据万兴科技市场商务负责人意达介绍,“天幕”展现出独有优势:一是商用场景全面,覆盖视频、图像、音频、文本创意;二是任务模型优化,能基于对垂类用户的深度理解灵活调整算法和框架;三是垂类定向突破,锁定创意创作领域,提供专业级的支持;四是推理效能提速,快速高效地处理大规模的生成任务请求。

此外,在意达看来,“天幕”更偏向于细分的垂类行业,希望聚焦到每一个具体的应用场景,解决实际问题,为用户带来价值。

“天幕”在落地应用方面同样进展迅速,为用户打造创作“外脑”,提升视频编辑效率和质量。比如,旗下视频剪辑软件万兴喵影/Wondershare Filmora上线了AI Copilot智能剪辑助手、AI文字快剪、AIGC音乐生成等功能。“以文字快剪为例,以往视频粗剪工作量繁多,需要反复查阅素材、逐句对应裁剪,但AI算法可将视频声音自动转成文本,并匹配对应语句的时间戳,这样用户可以像编辑文本一样高效剪辑视频,”意达表示,在AI的加持下,用户每次编辑视频都能缩短几个小时的时长,极大地提升编辑效率。

音视频AI价值逐步显现,不仅打通文化产业新形式,也在助力企业实现增收提效。5月,某现象级知名音综节目片头亮相,片中多个画面内容正是由“天幕”音视频多媒体大模型原子能力支持生成。根据万兴科技2023年报,集成AI能力的视频创意业务去年实现营业收入达9.61亿,同比2022年增长近三成,占公司总收入比重增至65%,整体订阅续约率提升5个百分点。原生AI应用对业绩的贡献也在逐步释放,去年万兴科技大力加速创意资源素材的全类型覆盖,并建立资源质量评级,优化资源的曝光以及转化,有效实现素材资源收入翻倍增长。

5月,万兴“天幕”等创新成果亮相深圳文博会。

音视频AI面临三大挑战

发力探索语料算本土化

人工智能的发展中,算法、算力和数据是三大关键要素。其中,算力是AI模型的“发动机”,大模型的实现更需要强大的算力来支撑训练和推理过程。而语料数据是决定大模型能力的天花板,丰富、多样且准确的语料数据不仅提升模型的训练效果,还增强其在实际应用中的表现。

但实际上,音视频AI领域存在着三大挑战。意达告诉南都记者,首先,数据集稀缺问题严重,视频内容存储和标注成本高昂,视频相关的训练数据集目前仍不足。其次,算力成本高昂,视频训练所需的算力远高于图片、文字等其它内容。此外,视频生成效果不尽如人意,还有较大的提升空间。

各方正在推进算力、语料“量”“质”齐升。政策层面,2024年政府工作报告提出,加快形成全国一体化算力体系,培育算力产业生态。《广东省算力基础设施高质量发展行动暨“粤算”行动计划(2024-2025年)》提出,到2025年,在计算力方面,算力规模达到38EFLOPS,智能算力占比达到50%。去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。

企业也正在发力。对内,万兴科技积极提升技术实力。自上市以来,万兴科技研发投入不断加大,从2018年上市时的0.97亿元,已大幅提升至2023年的4.02亿元;研发人员比例已占公司员工总数的56%。

对外,万兴科技组建自己的生态“朋友圈”,试图通过强强联合解决技术难题。公开资料显示,算力方面,目前万兴科技与华为云、马投算力等达成三方算力合作,进行算力本土化布局。数据方面,与中广天择等企业达成算料战略合作,用更为本土化的优质版权数据进行训练,提高大模型本土理解能力。

生成效果方面,一方面万兴科技不断对大模型进行高频次技术迭代,加大训练投喂,升级模型能力。另一方面,也将积极深化与国内外技术厂商、知名企业的合作,积极构建AI生态矩阵,发挥本土化营销推广和用户运营能力,以实现通用技术能力和品牌知名度的持续提升。

有业内声音认为,国内视频生成模型距离应用程度还有很长的路要走,至少还需要两年甚至更长时间,才会有通用效果比较好的模型出现。但国内视频生成模型陆续问世,迈出第一步,才能够相互交流不断迭代提升能力。

生成式AI创作成发展趋势

视频大模型应用加速进化

数据显示,截至2023年底,国内短视频用户规模约为10.12亿人,占网民总数的比例已高达94.8%。另据中商产业研究院预测,2023年中国超高清视频产业规模将达到4万亿元,2025年将进一步增至5万亿元。未来,随着大模型技术持续突破,音视频产业将迎来新一轮繁荣发展。

谈及音视频行业未来趋势,在意达看来,目前行业内对音视频AI未来发展趋势的理解基本一致,都是从人工编辑到生成式人工智能创作的发展。在以后的视频创作中,理论上用户不仅不需要自己去请演员、不需要自己拍摄,甚至于不需要自己去写脚本,只需要将想到的内容输入给AI,就可以直接生成出对应的视频,因此目前在音视频大模型的研究上,国内外基本是围绕如何能生成稳定且高质的、丰富素材的视频效果来演进。

对此,万兴科技副总裁朱伟在2024中国生成式AI大会上表示,今年视频类应用有望迎来爆发式增长,也就是说,AI视频大模型的落地应用会越来越多、越来越快。

对于万兴科技在音视频AI领域的下一步计划,意达透露,万兴科技除了继续提升天幕大模型的算法能力外,还会在实用创作领域专注符合用户编辑场景需求的,以编辑效能提升为主、生成创作配套的智能型剪辑的产品发展方向。

在接下来的迭代过程中,万兴科技将重点进行AI提效增强功能的持续叠加。譬如在效率层面,如何将过往繁琐的操作通过“一键化”的方式去处理完成;在质量方面,如何能基于用户已有素材,提升其画质、音质甚至于成片的观感等,这些都已被纳入企业研发计划。

出品:南都大数据研究院

策划:邹莹

统筹:张纯

采写:南都记者 谢小清 实习生 黄子玮

设计:张博