(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210813487.X
(22)申请日 2022.07.11
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 赵沁 杨栋 曹木勇
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 彭程
(51)Int.Cl.
G10L 25/63(2013.01)
G10L 17/02(2013.01)
G10L 15/26(2006.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种情绪类别确定方法、 装置、 设备及可读
存储介质
(57)摘要
本申请实施例公开了一种情绪类别确定方
法、 装置、 设备及可读 存储介质, 涉及人工智能中
机器学习技术和语音处理技术, 其中, 方法包括:
获取待识别的目标语音, 以及该目标语音对应的
目标文本; 从该目标语音中提取声纹信息, 基于
该声纹信息确定第一情绪类别; 从目标文本中提
取语义信息, 基于语义信息确定第二情绪类别;
基于声纹信息中的声纹嵌入向量和该语义信息
中的语义 嵌入向量进行特征融合处理, 得到融合
嵌入向量, 基于融合嵌入向量确定第三情绪类
别; 基于该第一情绪类别、 该第二情绪类别和该
第三情绪类别, 确定该目标语音的目标情绪类
别, 目标情绪类别用于 反映该目标语音所属的情
绪类别。 采用本申请实施例, 可 以提高情绪类别
确定的准确性。
权利要求书3页 说明书20页 附图6页
CN 115171731 A
2022.10.11
CN 115171731 A
1.一种情绪类别确定方法, 其特 征在于, 包括:
获取待识别的目标语音, 以及所述目标语音对应的目标文本;
从所述目标语音中提取声纹信息, 基于所述声纹信息确定第一情绪类别, 所述声纹信
息包括声纹嵌入向量;
从所述目标文本中提取语义信息, 基于所述语义信息确定第二情绪类别, 所述语义信
息包括语义嵌入向量;
对所述声纹嵌入向量和所述语义嵌入向量进行 特征融合处 理, 得到融合嵌入向量;
基于所述融合嵌入向量确定所述目标语音与多个预设融合情绪类别中每个预设融合
情绪类别之间的匹配概 率;
基于所述多个预设融合情绪类别和匹配概 率确定第三情绪类别;
基于所述第一情绪类别、 所述第二情绪类别和所述第三情绪类别, 确定所述目标语音
的目标情绪类别, 所述目标情绪类别用于反映所述目标语音所属的情绪类别。
2.根据权利要求1所述的方法, 其特征在于, 所述基于所述第一情绪类别、 所述第二情
绪类别和所述第三情绪类别, 确定所述目标语音的目标情绪类别, 包括:
若所述第一情绪类别、 所述第 二情绪类别和所述第 三情绪类别中存在至少两种情绪类
别为第一类别, 则确定所述第一类别为所述目标语音的目标情绪类别;
若所述第一情绪类别、 所述第二情绪类别和所述第三情绪类别均为不同类别, 则获取
所述第一情绪类别对应的第一匹配概率、 所述第二情绪类别对应的第二匹配概率和所述第
三情绪类别对应的第三匹配概率, 确定所述第一匹配概率、 所述第二匹配概率和所述第三
匹配概率中最大概 率对应的类别为所述目标语音的目标情绪类别。
3.根据权利要求1所述的方法, 其特征在于, 所述基于所述第一情绪类别、 所述第二情
绪类别和所述第三情绪类别, 确定所述目标语音的目标情绪类别, 包括:
基于情绪识别场景确定所述第 一情绪类别对应的第 一权重、 所述第 二情绪类别对应的
第二权重和所述第三情绪类别对应的第三权 重;
基于所述第 一权重和所述第 一匹配概率确定所述第 一情绪类别的加权置信度, 基于所
述第二权重和所述第二匹配概率确定所述第二情绪类别的加权置信度, 基于所述第三权重
和所述第三匹配概 率确定所述第三情绪类别的加权 置信度;
基于所述第 一情绪类别的加权置信度、 所述第 二情绪类别的加权置信度和所述第 三情
绪类别的加权 置信度, 确定所述目标语音的目标情绪类别。
4.根据权利要求1 ‑3任一项所述的方法, 所述方法还 包括:
基于所述目标情绪类别确定目标方案, 输出所述目标方案, 所述目标方案用于提示对
所述目标情绪类别进行调整;
获取在目标时间段内的调整语音和调整 文本;
基于所述调 整语音和所述调整文本确定调整情绪类别, 若所述调整情绪类别与所述目
标情绪类别之间的相似度大于相似度阈值, 则对所述目标 方案进行调整。
5.根据权利要求1所述的方法, 其特征在于, 所述基于所述声纹信息确定第一情绪类
别, 包括:
对所述声纹信息进行 特征提取, 得到声纹嵌入向量;
基于所述声纹嵌入向量确定所述目标语音与多个预设声纹情绪类别中每个预设声纹权 利 要 求 书 1/3 页
2
CN 115171731 A
2情绪类别之间的匹配概 率;
基于所述多个预设声纹情绪类别和匹配概 率确定所述第一情绪类别。
6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
获取样本数据, 样本数据包括第 一类样本数据、 第 二类样本数据和第 三类样本数据, 所
述第一类样本数据的类别为语调类情绪类别;
从所述第一类样本数据中提取第 一样本声纹信 息, 基于所述第 一样本声纹信 息确定第
一样本情绪类别;
从所述第二类样本数据中提取第 一样本语义信 息, 基于所述第 一样本语义信 息确定第
二样本情绪类别;
从所述第三类样本数据中提取第 二样本声纹信 息和第二样本语义信 息, 基于所述第 二
样本声纹信息和所述第二样本语义信息确定第三样本情绪类别;
获取所述第 一类样本数据对应的第 一样本情绪标签、 所述第 二类样本数据对应的第 二
样本情绪标签和所述第三类样本数据对应的第三样本情绪标签;
基于所述第 一样本情绪类别、 所述第 二样本情绪类别、 所述第三样本情绪类别、 所述第
一样本情绪标签、 所述第二样本情绪标签和所述第三样本情绪标签, 训练目标判别器, 所述
目标语音的目标情绪类别是基于所述目标判别器确定的。
7.根据权利要求1所述的方法, 所述方法还 包括:
获取所述目标语音对应的目标图像, 提取所述目标图像的表情信息, 基于所述表情信
息确定第四情绪类别;
所述基于所述声纹信息和所述语义信息确定第三情绪类别, 包括:
基于所述表情信息、 所述声纹信息和所述语义信息, 确定第三情绪类别;
所述基于所述第一情绪类别、 所述第二情绪类别和所述第三情绪类别, 确定所述目标
语音的目标情绪类别, 包括:
基于所述第 一情绪类别、 所述第 二情绪类别、 所述第 三情绪类别和所述第四情绪类别,
确定所述目标语音的目标情绪类别。
8.一种情绪类别确定装置, 其特 征在于, 包括:
数据获取 单元, 用于获取待识别的目标语音, 以及所述目标语音对应的目标文本;
声纹提取单元, 用于从所述目标语音中提取声纹信息, 基于所述声纹信息确定第一情
绪类别, 所述声纹信息包括声纹嵌入向量;
语义提取单元, 用于从所述目标文本中提取语义信息, 基于所述语义信息确定第二情
绪类别, 所述语义信息包括语义嵌入向量;
信息融合单元, 用于对所述声纹嵌入向量和所述语义嵌入向量进行特征融合处理, 得
到融合嵌入向量;
所述信息融合单元, 还用于基于所述融合嵌入向量确定所述目标语音与多个预设融合
情绪类别中每 个预设融合情绪类别之间的匹配概 率;
所述信息融合单元, 还用于基于所述多个预设融合情绪类别和匹配概率确定第 三情绪
类别;
类别确定单元, 用于基于所述第 一情绪类别、 所述第 二情绪类别和所述第 三情绪类别,
确定所述目标语音的目标情绪类别, 所述目标情绪类别用于反映所述目标语音所属的情绪权 利 要 求 书 2/3 页
3
CN 115171731 A
3
专利 一种情绪类别确定方法、装置、设备及可读存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:57上传分享