AI赋能音视频创作：一键生成的大模型时代

发表时间: 2024-06-11 16:25

今年的政府工作报告提出，要大力推进现代化产业体系建设，加快发展新质生产力。其中提到要深化大数据、人工智能等研发应用，开展“人工智能+”行动，打造具有国际竞争力的数字产业集群。

“通用人工智能产业发展22条”发布不久，广东做出“加快培育人工智能等新兴产业，大力发展新质生产力”的新年部署。南都大数据研究院开展“粤来粤AI”大型研究，以多个篇章描摹发展现状，考量应用实效，研判治理风险，助力广东加快建设通用人工智能产业创新引领地，协同探索人工智能监管模式创新。本次推出“有AI应用篇”系列报道，走访广东人工智能相关企业，揭秘那些与我们工作生活息息相关的AI应用产品的研发故事。

第七期，走进广东数字创意软件厂商——万兴科技，看AI如何实现音视频创作“一键化”，助力加快赋能“AI+”产业发展，迈进生成式智能创作时代。

进入音视频创作领域，AI还能怎么玩？近期，一档现象级音乐综艺节目播出，而据透露，节目片头中部分画面便是由国内首个音视频多媒体大模型支持生成。

这个音视频大模型来自一家有着“中国版Adobe”之称的科技公司。在广东，这家公司正助力国产文生视频大模型加速从“实验室”迈向实际应用，加快赋能“AI+”产业发展，推动音视频创作行业逐步从人工编辑迈进生成式人工智能创作时代。

有AI产品：音视频创作大模型

产品特性：

以天幕大模型为主的AI生成式创作，提供文生主题视频、视频风格化、视频配乐、数字人播报等多媒体能力；赋能以万兴喵影/Wondershare Filmora为代表的实用创作，提供AI绘画、AI Copilot智能剪辑助手、AI文字快剪、智能人声分离、智能遮罩、智能补帧、AI视频翻译等工具能力；

应用场景：

传媒影视、自媒体创作、电商运营、教育培训等。

使用效果：

每次编辑视频都能缩短数小时的时长，提升用户视频编辑效率和视频质量，革新视频创作范式。

助力实现降本增效提质
赋能“AI+”产业大发展

音视频创作覆盖内容构思、内容资源搜索、效果编辑、效果生成、运算&渲染、合成&编辑等流程,整体链路长、门槛高。“平均制作1个视频需要1.6h+，”万兴科技董事长吴太兵曾公开表示，但在生成式AI的全面赋能下,视频生成尚处于早期探索阶段，特别是在视频长度、逼真度和连贯性这三个关键维度上，能够真正达到商用标准的产品并不多见。不过，这也让视频生成领域成为AI发展的重要突破口。

万兴科技推出的万兴“天幕”是音视频领域中具有代表意义的垂直大模型。据了解，万兴“天幕”已迭代超百项音视频原子能力,包括文生主题视频、视频风格化、视频配乐、数字人播报等多媒体能力。其中文生视频能力方面，已实现不同风格、丰富场景及主题的连贯性，且一键生成时长支持60秒+。

据万兴科技市场商务负责人意达介绍，“天幕”展现出独有优势：一是商用场景全面，覆盖视频、图像、音频、文本创意；二是任务模型优化，能基于对垂类用户的深度理解灵活调整算法和框架；三是垂类定向突破，锁定创意创作领域，提供专业级的支持；四是推理效能提速，快速高效地处理大规模的生成任务请求。

此外，在意达看来，“天幕”更偏向于细分的垂类行业，希望聚焦到每一个具体的应用场景，解决实际问题，为用户带来价值。

“天幕”在落地应用方面同样进展迅速，为用户打造创作“外脑”，提升视频编辑效率和质量。比如，旗下视频剪辑软件万兴喵影/Wondershare Filmora上线了AI Copilot智能剪辑助手、AI文字快剪、AIGC音乐生成等功能。“以文字快剪为例，以往视频粗剪工作量繁多，需要反复查阅素材、逐句对应裁剪，但AI算法可将视频声音自动转成文本，并匹配对应语句的时间戳，这样用户可以像编辑文本一样高效剪辑视频，”意达表示，在AI的加持下，用户每次编辑视频都能缩短几个小时的时长，极大地提升编辑效率。

音视频AI价值逐步显现，不仅打通文化产业新形式，也在助力企业实现增收提效。5月，某现象级知名音综节目片头亮相，片中多个画面内容正是由“天幕”音视频多媒体大模型原子能力支持生成。根据万兴科技2023年报，集成AI能力的视频创意业务去年实现营业收入达9.61亿，同比2022年增长近三成，占公司总收入比重增至65%，整体订阅续约率提升5个百分点。原生AI应用对业绩的贡献也在逐步释放，去年万兴科技大力加速创意资源素材的全类型覆盖，并建立资源质量评级，优化资源的曝光以及转化，有效实现素材资源收入翻倍增长。

5月，万兴“天幕”等创新成果亮相深圳文博会。

音视频AI面临三大挑战
发力探索语料算力本土化

在人工智能的发展中，算法、算力和数据是三大关键要素。其中，算力是AI模型的“发动机”，大模型的实现更需要强大的算力来支撑训练和推理过程。而语料数据是决定大模型能力的天花板，丰富、多样且准确的语料数据不仅提升模型的训练效果，还增强其在实际应用中的表现。

但实际上，音视频AI领域存在着三大挑战。意达告诉南都记者，首先，数据集稀缺问题严重，视频内容存储和标注成本高昂，视频相关的训练数据集目前仍不足。其次，算力成本高昂，视频训练所需的算力远高于图片、文字等其它内容。此外，视频生成效果不尽如人意，还有较大的提升空间。

各方正在推进算力、语料“量”“质”齐升。政策层面，2024年政府工作报告提出，加快形成全国一体化算力体系，培育算力产业生态。《广东省算力基础设施高质量发展行动暨“粤算”行动计划（2024-2025年）》提出，到2025年，在计算力方面，算力规模达到38EFLOPS，智能算力占比达到50%。去年11月，国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》提到，要提升数据供给水平、建设高质量语料库和基础科学数据库。

企业也正在发力。对内，万兴科技积极提升技术实力。自上市以来，万兴科技研发投入不断加大，从2018年上市时的0.97亿元，已大幅提升至2023年的4.02亿元；研发人员比例已占公司员工总数的56%。

对外，万兴科技组建自己的生态“朋友圈”，试图通过强强联合解决技术难题。公开资料显示，算力方面，目前万兴科技与华为云、马投算力等达成三方算力合作，进行算力本土化布局。数据方面，与中广天择等企业达成算料战略合作，用更为本土化的优质版权数据进行训练，提高大模型本土理解能力。

生成效果方面，一方面万兴科技不断对大模型进行高频次技术迭代，加大训练投喂，升级模型能力。另一方面，也将积极深化与国内外技术厂商、知名企业的合作，积极构建AI生态矩阵，发挥本土化营销推广和用户运营能力，以实现通用技术能力和品牌知名度的持续提升。

有业内声音认为，国内视频生成模型距离应用程度还有很长的路要走，至少还需要两年甚至更长时间，才会有通用效果比较好的模型出现。但国内视频生成模型陆续问世，迈出第一步，才能够相互交流不断迭代提升能力。

生成式AI创作成发展趋势
视频大模型应用加速进化

数据显示，截至2023年底，国内短视频用户规模约为10.12亿人，占网民总数的比例已高达94.8%。另据中商产业研究院预测，2023年中国超高清视频产业规模将达到4万亿元，2025年将进一步增至5万亿元。未来，随着大模型技术持续突破，音视频产业将迎来新一轮繁荣发展。

谈及音视频行业未来趋势，在意达看来，目前行业内对音视频AI未来发展趋势的理解基本一致，都是从人工编辑到生成式人工智能创作的发展。在以后的视频创作中，理论上用户不仅不需要自己去请演员、不需要自己拍摄，甚至于不需要自己去写脚本，只需要将想到的内容输入给AI，就可以直接生成出对应的视频，因此目前在音视频大模型的研究上，国内外基本是围绕如何能生成稳定且高质的、丰富素材的视频效果来演进。

对此，万兴科技副总裁朱伟在2024中国生成式AI大会上表示，今年视频类应用有望迎来爆发式增长，也就是说，AI视频大模型的落地应用会越来越多、越来越快。

对于万兴科技在音视频AI领域的下一步计划，意达透露，万兴科技除了继续提升天幕大模型的算法能力外，还会在实用创作领域专注符合用户编辑场景需求的，以编辑效能提升为主、生成创作配套的智能型剪辑的产品发展方向。

在接下来的迭代过程中，万兴科技将重点进行AI提效增强功能的持续叠加。譬如在效率层面，如何将过往繁琐的操作通过“一键化”的方式去处理完成；在质量方面，如何能基于用户已有素材，提升其画质、音质甚至于成片的观感等，这些都已被纳入企业研发计划。

出品：南都大数据研究院

策划：邹莹

统筹：张纯

采写：南都记者谢小清实习生黄子玮

设计：张博

AI赋能音视频创作：一键生成的大模型时代

热门阅读

推荐阅读