清华新技术:音视频情感识别专利增强维度分类精度
发表时间: 2024-01-08 10:44
金融界2024年1月8日消息,据国家知识产权局公告,清华大学取得一项名为“一种基于音视频的维度情感识别方法、系统、设备及介质“,授权公告号CN117058597B,申请日期为2023年10月。
专利摘要显示,本发明提出一种基于音视频的维度情感识别方法、系统、设备及介质。包括:将音频特征序列输入音频情感识别模型,得到音频情感结果;将图像特征序列输入视频情感识别模型,得到视频情感结果;将音频情感结果和视频情感结果输入融合模型,得到情感识别结果;应用带有离散情感标签的数据集,对音频情感识别模型、视频情感识别模型和融合模型进行训练,然后应用带有维度情感标签的数据集,再训练;将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。本发明通过离散情感分类训练可以学习到更多关于情感的表示和特征,从而提高对维度情感分类的准确性和泛化能力。
本文源自金融界