阿里巴巴推出EMO:音视频传播新模型

发表时间: 2024-02-29 07:10

Emo 是做什么用的?

如下图,EMO可以让一个人物图片按照输入的声音动起来。关键是这个字。怎么动?真实,有表现力,面部五官表情到位。专业的说法是:在弱条件下使用音视频扩散模型生成富有表现力的人像视频[Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions]


EMO,一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和语音,例如说话和唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入音频的长度生成任意持续时间的视频。


论文地址参考:
https://arxiv.org/pdf/2402.17485.pdf

生成视频

简要介绍

通过专注于音频线索和面部动作之间的动态和细微关系,解决了提高说话头视频生成中真实性和表现力的挑战。我们提出了EMO,一种新颖的框架,使用直接的音频到视频的合成方法,无需中间3D模型或面部标记。我们的方法确保了视频中无缝的帧转换和一致的身份保持,产生了高度表达力和栩栩如生的动画。实验结果表明,EMO不仅能生成令人信服的说话视频,还能生成各种风格的唱歌视频,在表现力和真实性方面显著超过现有的最先进方法​。

本项工作通过关注音频提示和面部运动之间的动态细腻关系,解决了提高说话头视频生成的真实性和表达性的挑战。我们提出了EMO,一种新颖的框架,利用直接的音频到视频合成方法,避免了中间3D模型或面部标记的需要。我们的方法确保了视频中的无缝帧转换和一致的身份保持,产生了高度表达性和生动的动画。实验结果显示,EMO不仅能够生成令人信服的说话视频,还能生成多种风格的唱歌视频,在表达性和真实性方面明显优于现有的最先进技术

实现过程

主要包括两个阶段。在初始阶段,即框架编码阶段,使用ReferenceNet从参考图像和运动帧中提取特征。随后,在扩散过程阶段,一个预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声结合,控制面部图像的生成。然后,使用主干网络来促进去噪操作。在主干网络中,应用了两种形式的注意机制:参考注意力和音频注意力,分别用于保持角色身份和调节角色动作。此外,还使用了时间模块来操纵时间维度,并调整运动速度。

文中生成视频实例

让肖像歌唱

输入单个角色图像和声音音频,例如唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入音频的长度生成任意持续时间的视频。我们的方法还可以长时间保留角色的身份。

不同的语言和肖像风格

我们的方法支持各种语言的歌曲,并将不同的肖像风格带入生活。它直观地识别音频中的音调变化,从而生成动态、表情丰富的化身。

快速节奏

驱动的化身可以跟上快节奏的节奏,保证即使是最快的歌词也能与富有表现力和动态的角色动画同步。

与不同的角色交谈

我们的方法不仅限于处理唱歌的音频输入,它还可以容纳各种语言的口语音频。此外,我们的方法能够将过去时代的肖像、绘画以及 3D 模型和人工智能生成的内容制作成动画,为它们注入逼真的动作和真实感。

跨演员表演

探索我们的方法的潜在应用,该方法使电影角色的肖像能够以不同的语言和风格提供独白或表演。我们可以扩大多语言和多文化背景下人物塑造的可能性。