专利 一种基于语义保留的语音唤醒方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210780418.3 (22)申请日 2022.07.05 (71)申请人中科南京智能技术研究院地址 211100 江苏省南京市江宁区创研路 266号麒麟人工智能产业园1号楼5层 (72)发明人李郡　付冠宇　王啸　尚德龙　周玉梅　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师赵兴华 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 25/24(2013.01)G10L 25/30(2013.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于语义保留的语音唤醒方法及系统 (57)摘要本发明涉及一种基于语义保留的语音唤醒方法及系统。该方法包括：获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络；利用流式语音唤醒系统神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。本发明能够提高语音唤醒的准确率和稳定性。权利要求书2页说明书5页附图1页 CN 114863915 A 2022.08.05 CN 114863915 A 1.一种基于语义保留的语音唤醒方法，其特征在于，包括：获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络；利用流式语音唤醒系统神经网络进行语音数据的识别，并根据识别结果相应的进行语音唤醒。 2.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签，具体包括：对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签；保留语义的音素级别标签包括：关键词语义段和非关键词语义段；将保留语义的音素级别标签转换为流式帧级别标签。 3.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络，之前还包括：判断连续声学特征帧是否满足设定帧数；所述设定帧数应涵盖语音样本数据中所有关键词长度；若不满足，则在连续声学特征帧的前方进行补零，进而达到设定帧数；并且将补零相应的位置标记为非关键词语义帧标签。 4.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络，之前还包括：对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。 5.根据权利要求1所述的一种基于语义保留的语音唤醒方法，其特征在于，所述根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络，具体包括：根据神经网络的识别结果进行反向传播，进而更新神经网络的参数，完成语音唤醒神经网络模型的训练。 6.一种基于语义保留的语音唤醒系统，其特征在于，包括：语音样本数据获取模块，用于获取语音样本数据，并对所述语音样本数据进行特征提取，确定连续声学特征帧相关信息；所述连续声学特征帧相关信息包括：梅尔频率倒谱系数、帧移和单帧帧长；流式帧级别标签确定模块，用于利用关键词对所述连续声学特征帧进行标记，确定流式帧级别标签；所述流式帧级别标签包括：关键词语义帧标签和非关键词语义帧标签；流式语音唤醒系统神经网络确定模块，用于根据连续声学特征帧以及对应的流式帧级别标签训练神经网络，确定流式语音唤醒系统神经网络；语音唤醒模块，用于利用流式语音唤醒系统神经网络进行语音数据的识别，并根据识权　利　要　求　书 1/2 页 2 CN 114863915 A 2别结果相应的进行语音唤醒。 7.根据权利要求6所述的一种基于语义保留的语音唤醒系统，其特征在于，所述流式帧级别标签确定模块具体包括：音素级别标签确定单元，用于对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签；保留语义的音素级别标签包括：关键词语义段和非关键词语义段；流式帧级别标签确定单元，用于将保留语义的音素级别标签转换为流式帧级别标签。 8.根据权利要求6所述的一种基于语义保留的语音唤醒系统，其特征在于，还包括：判断模块，用于判断连续声学特征帧是否满足设定帧数；所述设定帧数应涵盖语音样本数据中所有关键词长度；补零模块，用于若不满足，则在连续声学特征帧的前方进行补零，进而达到设定帧数；并且将补零相应的位置标记为非关键词语义帧标签。 9.根据权利要求6所述的一种基于语义保留的语音唤醒系统，其特征在于，还包括：数据增强模块，用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处理。 10.根据权利要求6所述的一种基于语义保留的语音唤醒系统，其特征在于，所述流式语音唤醒系统神经网络确定模块具体包括：流式语音唤醒系统神经网络训练单元，用于根据神经网络的识别结果进行反向传播，进而更新神经网络的参数，完成语音唤醒神经网络模型的训练。权　利　要　求　书 2/2 页 3 CN 114863915 A 3

专利 一种基于语义保留的语音唤醒方法及系统

专利一种基于语义保留的语音唤醒方法及系统