腾讯公司研发音视频生成技术，实现数字对象静音时的口型稳定

发表时间: 2023-12-30 09:02

金融界2023年12月30日消息，据国家知识产权局公告，腾讯科技（深圳）有限公司申请一项名为“一种音视频的生成方法、装置、设备及存储介质“，公开号CN117316185A，申请日期为2023年9月。

专利摘要显示，本申请实施例公开了一种音视频的生成方法、装置、设备及存储介质，涉及人工智能和车联网，该音视频的生成方法包括：对目标音频进行特征提取，得到目标音频对应的非静音特征以及目标音频对应的静音特征，该非静音特征指的是：目标音频中包含人声音频的第一音频片段的特征，该静音特征指是：目标音频中未包含人声音频的第二音频片段的特征；基于非静音特征和静音特征，对数字对象的表情进行预测，得到数字对象的预测表情系数；基于预测表情系数对数字对象的表情进行调整；将目标音频与调整后视频片段进行合成，得到目标音视频。采用本发明实施例，实现了使数字对象在静音处的口型稳定并符合真人说话的自然状态。

本文源自金融界

腾讯公司研发音视频生成技术，实现数字对象静音时的口型稳定

热门阅读

推荐阅读