智能时代音视频生成:引领内容创作新纪元

发表时间: 2024-07-29 08:08


AI为核心的新一轮科技创新浪潮已至,AI将与互联网一样,带来新一轮范式革命,人类社会将进一步加速发展。我们精心准备,重磅推出【智能时代专题】,目前已规划121篇深度原创研报,将全方位梳理AI产业、技术、代表性公司等发展历史、现状、趋势,展望智能时代未来图景,挖掘投资机会。


智能时代专题:音视频生成

免费版2,124字,预计阅读5分钟

完整版19,824字,欢迎付费解锁


一、中国短视频领域全球领先,助力AI音视频生成技术蓬勃发展。


中国在短视频领域优势明显,国内抖音、快手,海外TikTok等短视频平台,在全球范围内取得巨大成功,拥有庞大用户基础,积累海量视频素材,形成活跃创作者社区、成熟商业模式。


中国在短视频领域领先地位,为AI音视频生成技术发展提供坚实基础,凭借用户规模、数据资源、领先算法、应用场景等优势,中国有望在AI音视频技术与实际应用方面,保持全球领先。


2024年2月,OpenAI发布首个文生视频模型Sora,定义视频生成技术新高度;2024年6月,快手推出AI视频生成大模型可灵,效果对标Sora,代表国内AI视频生成应用新水平;不到半年时间,中国企业在视频生成模型方面,快速追赶全球顶尖水平。


抖音、快手,在AI短剧领域进行大量布局,借助生成式AI技术,分别推出《三星堆:未来启示录》、《山海奇镜之劈波斩浪》等短剧作品,展示AI音视频生成技术在影视制作中巨大潜力。


二、AI音视频应用普及,拉近大众与AI距离,有望开启内容创作新纪元。


AI音视频应用,类似聊天机器人,是面向大众日常应用,距离用户非常近,能让大众切实感受到AI带来变化,提升用户对AI接受度。


随着AI音视频应用不断发展成熟,有望率先在中国得到大面积采用,助力打破传统内容创作壁垒,降低音乐、视频、游戏、3D内容创作门槛,大幅降低成本、提升效率、解放人们生产力,有望开启新的内容生产时代。


AI音视频生成工具,助力用户不断拓展想象力与创造力边界,让内容生产更加多元化、个性化、智能化,带来更加丰富、精彩视听体验,形成人人都是制作人、人人都是导演的全民创作模式,实现创意普惠,同时为整个传媒互联网领域,带来系统性效率提升与模式重塑,为影视、游戏、广告等公司,带来新的交易逻辑与想象空间。


AI音视频生成应用不断创新发展,Suno、Pika、Sora、快手可灵等代表行业发展前沿。


三、目前音视频大模型,相当于大语言模型赛道ChatGPT阶段,生成速度、成本优化等,是未来持续迭代升级方向。


目前音视频大模型,生成内容质量持续提升,清晰度、流畅度、真实感等不断进步,同时尚未达到完美水平,生成质量与人类专业团队仍有差距,还存在速度慢、成本高等痛点。


未来AI音视频应用,不仅要持续提升生成内容质量与可控性,还需要提高生成速度,缩短用户等待时间,是提升用户体验关键。


AI音视频应用,需做好模型性能与成本之间平衡;模型性能不够强大,无法做出优秀产品;为提升模型性能、加快生成速度,使用更多GPU,会造成成本过高,无法大范围商用;只有模型性能不断提升,同时控制好成本,才能打通商业模型,在市场竞争中占据有利地位。


四、大模型助力实现新突破,音视频Token化是关键。


大模型以强大生成能力,为音视频生成领域带来革命性变化,音视频Token化是关键。基于Transformer架构大语言模型中,Token代表模型能理解与生成的最小单位,也是声音、图像等基础表达形式。


音视频数据,具有高维度与复杂性,Token化过程,是将连续音视频信号,转化为离散Token序列。如何将音视频Token化,用较少Token记录更多信息,不仅有助降低计算与存储成本,还能提高模型生成质量与效率,实现低成本、高质量生成效果。


音频生成方面,谷歌、Meta等公司,研发SoundStream、EnCodec等音频采样压缩技术,将音频转化为更少Token,输入大语言模型进行学习,使大模型逐渐获得生成音频能力。


视频生成方面,Sora团队将扩散模型Diffusion与Transformer架构大模型结合,通过帧编码、时间序列处理等操作,将视频每一帧图像特征信息转换为Token,输入大模型进行学习,结合扩散模型的生成能力、Transformer模型的可扩展性与自注意力机制,提高视频生成稳定性与连续性。


五、音视频大模型,有望更好发挥The Bitter Lesson与Scaling Law潜力,展现更多涌现能力。


音视频Token量远大于语言,为模型提供更丰富学习材料,让模型更好理解世界。音视频涉及更复杂多模态信息,Token量远大于语言,为模型提供更丰富、立体学习环境,有助模型多角度学习与理解现实世界。这种跨模态学习能力,传统语言模型难以实现。


The Bitter Lesson、Scaling Law,都强调充分利用计算资源与数据量,提升模型性能。


强化学习泰斗级人物Richard Sutton,提出The Bitter Lesson,核心观点是,长期看,简单、能更好利用计算量的方法,通常优于加入人类先验知识、计算量较少的方法。


规模法则Scaling Law,AI领域重要理念,强调随着模型规模扩大与数据量增加,模型泛化能力、理解能力等,将显著提升。


相比大语言模型,音视频大模型,基于Token量更丰富优势,随着计算资源增加,有望更充分发挥The Bitter Lesson、Scaling Law潜力,展现更多涌现能力。


目前Sora等视频生成模型,已展现大量涌现功能,能模拟现实世界中人、动物、环境等信息,具备世界模型雏形,未来借助更先进算法、更大数据集等,将具备更强大感知、理解、模拟现实世界能力,提供更智能、个性化服务。


六、AI音视频生成技术,对传统内容创作模式造成冲击,引发版权争议。


目前AI音视频生成技术,尚未达到完美水平,生成内容质量与人们专业团队还有差距,对传统内容创作模式造成不小冲击,尤其是传统版权库内容领域。


AI音乐生成为例,AI改变传统音乐创作模式。过去,音乐创作需大量时间、精力、专业知识;现在,AI可短时间生成大量音乐作品,这种高效性、低成本创作方式,对传统音乐创作模式带来挑战。


AI音视频生成应用,涉及侵权争议,包括可能使用受版权保护的音视频作品进行训练、生成音视频作品与现有作品过于相似、模仿特定艺术家风格或声音等。


相关研报:


【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中


诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会


人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来


九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利


九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI


九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体


人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字


九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿


九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切


【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上


【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付


【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启


【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起


【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆


【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横


【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动


【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现


九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切


【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会


九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变


【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集


【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集


【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集


【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变


【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐


九宇资本赵宇杰:对智能电动汽车产业的碎片化思考


九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术


【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓


【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异


【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国


【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆


【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村


六合君3周岁生日,TOP 60篇经典研报重磅推荐


下午茶,互联网世界的三国杀


5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代


新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式


【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇


知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期


从APP Store畅销榜4年更替,看内容付费崛起


新三板破万思考:新三板日交易量10年100倍?


九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会


九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态|2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示