专利 一种情绪类别确定方法、装置、设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210813487.X (22)申请日 2022.07.11 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人赵沁　杨栋　曹木勇　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师彭程 (51)Int.Cl. G10L 25/63(2013.01) G10L 17/02(2013.01) G10L 15/26(2006.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种情绪类别确定方法、装置、设备及可读存储介质 (57)摘要本申请实施例公开了一种情绪类别确定方法、装置、设备及可读存储介质，涉及人工智能中机器学习技术和语音处理技术，其中，方法包括：获取待识别的目标语音，以及该目标语音对应的目标文本；从该目标语音中提取声纹信息，基于该声纹信息确定第一情绪类别；从目标文本中提取语义信息，基于语义信息确定第二情绪类别；基于声纹信息中的声纹嵌入向量和该语义信息中的语义嵌入向量进行特征融合处理，得到融合嵌入向量，基于融合嵌入向量确定第三情绪类别；基于该第一情绪类别、该第二情绪类别和该第三情绪类别，确定该目标语音的目标情绪类别，目标情绪类别用于反映该目标语音所属的情绪类别。采用本申请实施例，可以提高情绪类别确定的准确性。权利要求书3页说明书20页附图6页 CN 115171731 A 2022.10.11 CN 115171731 A 1.一种情绪类别确定方法，其特征在于，包括：获取待识别的目标语音，以及所述目标语音对应的目标文本；从所述目标语音中提取声纹信息，基于所述声纹信息确定第一情绪类别，所述声纹信息包括声纹嵌入向量；从所述目标文本中提取语义信息，基于所述语义信息确定第二情绪类别，所述语义信息包括语义嵌入向量；对所述声纹嵌入向量和所述语义嵌入向量进行特征融合处理，得到融合嵌入向量；基于所述融合嵌入向量确定所述目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；基于所述多个预设融合情绪类别和匹配概率确定第三情绪类别；基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，所述目标情绪类别用于反映所述目标语音所属的情绪类别。 2.根据权利要求1所述的方法，其特征在于，所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：若所述第一情绪类别、所述第二情绪类别和所述第三情绪类别中存在至少两种情绪类别为第一类别，则确定所述第一类别为所述目标语音的目标情绪类别；若所述第一情绪类别、所述第二情绪类别和所述第三情绪类别均为不同类别，则获取所述第一情绪类别对应的第一匹配概率、所述第二情绪类别对应的第二匹配概率和所述第三情绪类别对应的第三匹配概率，确定所述第一匹配概率、所述第二匹配概率和所述第三匹配概率中最大概率对应的类别为所述目标语音的目标情绪类别。 3.根据权利要求1所述的方法，其特征在于，所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：基于情绪识别场景确定所述第一情绪类别对应的第一权重、所述第二情绪类别对应的第二权重和所述第三情绪类别对应的第三权重；基于所述第一权重和所述第一匹配概率确定所述第一情绪类别的加权置信度，基于所述第二权重和所述第二匹配概率确定所述第二情绪类别的加权置信度，基于所述第三权重和所述第三匹配概率确定所述第三情绪类别的加权置信度；基于所述第一情绪类别的加权置信度、所述第二情绪类别的加权置信度和所述第三情绪类别的加权置信度，确定所述目标语音的目标情绪类别。 4.根据权利要求1 ‑3任一项所述的方法，所述方法还包括：基于所述目标情绪类别确定目标方案，输出所述目标方案，所述目标方案用于提示对所述目标情绪类别进行调整；获取在目标时间段内的调整语音和调整文本；基于所述调整语音和所述调整文本确定调整情绪类别，若所述调整情绪类别与所述目标情绪类别之间的相似度大于相似度阈值，则对所述目标方案进行调整。 5.根据权利要求1所述的方法，其特征在于，所述基于所述声纹信息确定第一情绪类别，包括：对所述声纹信息进行特征提取，得到声纹嵌入向量；基于所述声纹嵌入向量确定所述目标语音与多个预设声纹情绪类别中每个预设声纹权　利　要　求　书 1/3 页 2 CN 115171731 A 2情绪类别之间的匹配概率；基于所述多个预设声纹情绪类别和匹配概率确定所述第一情绪类别。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取样本数据，样本数据包括第一类样本数据、第二类样本数据和第三类样本数据，所述第一类样本数据的类别为语调类情绪类别；从所述第一类样本数据中提取第一样本声纹信息，基于所述第一样本声纹信息确定第一样本情绪类别；从所述第二类样本数据中提取第一样本语义信息，基于所述第一样本语义信息确定第二样本情绪类别；从所述第三类样本数据中提取第二样本声纹信息和第二样本语义信息，基于所述第二样本声纹信息和所述第二样本语义信息确定第三样本情绪类别；获取所述第一类样本数据对应的第一样本情绪标签、所述第二类样本数据对应的第二样本情绪标签和所述第三类样本数据对应的第三样本情绪标签；基于所述第一样本情绪类别、所述第二样本情绪类别、所述第三样本情绪类别、所述第一样本情绪标签、所述第二样本情绪标签和所述第三样本情绪标签，训练目标判别器，所述目标语音的目标情绪类别是基于所述目标判别器确定的。 7.根据权利要求1所述的方法，所述方法还包括：获取所述目标语音对应的目标图像，提取所述目标图像的表情信息，基于所述表情信息确定第四情绪类别；所述基于所述声纹信息和所述语义信息确定第三情绪类别，包括：基于所述表情信息、所述声纹信息和所述语义信息，确定第三情绪类别；所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：基于所述第一情绪类别、所述第二情绪类别、所述第三情绪类别和所述第四情绪类别，确定所述目标语音的目标情绪类别。 8.一种情绪类别确定装置，其特征在于，包括：数据获取单元，用于获取待识别的目标语音，以及所述目标语音对应的目标文本；声纹提取单元，用于从所述目标语音中提取声纹信息，基于所述声纹信息确定第一情绪类别，所述声纹信息包括声纹嵌入向量；语义提取单元，用于从所述目标文本中提取语义信息，基于所述语义信息确定第二情绪类别，所述语义信息包括语义嵌入向量；信息融合单元，用于对所述声纹嵌入向量和所述语义嵌入向量进行特征融合处理，得到融合嵌入向量；所述信息融合单元，还用于基于所述融合嵌入向量确定所述目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；所述信息融合单元，还用于基于所述多个预设融合情绪类别和匹配概率确定第三情绪类别；类别确定单元，用于基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，所述目标情绪类别用于反映所述目标语音所属的情绪权　利　要　求　书 2/3 页 3 CN 115171731 A 3

专利 一种情绪类别确定方法、装置、设备及可读存储介质

专利一种情绪类别确定方法、装置、设备及可读存储介质