腾讯公司研发音视频生成技术,实现数字对象静音时的口型稳定

发表时间: 2023-12-30 09:02

金融界2023年12月30日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司申请一项名为“一种音视频的生成方法、装置、设备及存储介质“,公开号CN117316185A,申请日期为2023年9月。

专利摘要显示,本申请实施例公开了一种音视频的生成方法、装置、设备及存储介质,涉及人工智能和车联网,该音视频的生成方法包括:对目标音频进行特征提取,得到目标音频对应的非静音特征以及目标音频对应的静音特征,该非静音特征指的是:目标音频中包含人声音频的第一音频片段的特征,该静音特征指是:目标音频中未包含人声音频的第二音频片段的特征;基于非静音特征和静音特征,对数字对象的表情进行预测,得到数字对象的预测表情系数;基于预测表情系数对数字对象的表情进行调整;将目标音频与调整后视频片段进行合成,得到目标音视频。采用本发明实施例,实现了使数字对象在静音处的口型稳定并符合真人说话的自然状态。

本文源自金融界