阿里巴巴推出EMO：音视频传播新模型

发表时间: 2024-02-29 07:10

Emo 是做什么用的？

如下图，EMO可以让一个人物图片按照输入的声音动起来。关键是这个动字。怎么动？真实，有表现力，面部五官表情到位。专业的说法是：在弱条件下使用音视频扩散模型生成富有表现力的人像视频[Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions]

EMO，一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和语音，例如说话和唱歌，我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频，同时，我们可以根据输入音频的长度生成任意持续时间的视频。

论文地址参考：
https://arxiv.org/pdf/2402.17485.pdf

生成视频

简要介绍

通过专注于音频线索和面部动作之间的动态和细微关系，解决了提高说话头视频生成中真实性和表现力的挑战。我们提出了EMO，一种新颖的框架，使用直接的音频到视频的合成方法，无需中间3D模型或面部标记。我们的方法确保了视频中无缝的帧转换和一致的身份保持，产生了高度表达力和栩栩如生的动画。实验结果表明，EMO不仅能生成令人信服的说话视频，还能生成各种风格的唱歌视频，在表现力和真实性方面显著超过现有的最先进方法。

本项工作通过关注音频提示和面部运动之间的动态细腻关系，解决了提高说话头视频生成的真实性和表达性的挑战。我们提出了EMO，一种新颖的框架，利用直接的音频到视频合成方法，避免了中间3D模型或面部标记的需要。我们的方法确保了视频中的无缝帧转换和一致的身份保持，产生了高度表达性和生动的动画。实验结果显示，EMO不仅能够生成令人信服的说话视频，还能生成多种风格的唱歌视频，在表达性和真实性方面明显优于现有的最先进技术

实现过程

主要包括两个阶段。在初始阶段，即框架编码阶段，使用ReferenceNet从参考图像和运动帧中提取特征。随后，在扩散过程阶段，一个预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声结合，控制面部图像的生成。然后，使用主干网络来促进去噪操作。在主干网络中，应用了两种形式的注意机制：参考注意力和音频注意力，分别用于保持角色身份和调节角色动作。此外，还使用了时间模块来操纵时间维度，并调整运动速度。