国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210780418.3 (22)申请日 2022.07.05 (71)申请人 中科南京智能技 术研究院 地址 211100 江苏省南京市江宁区创研路 266号麒麟人工智能产业园1号楼5层 (72)发明人 李郡 付冠宇 王啸 尚德龙  周玉梅  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 赵兴华 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 25/24(2013.01)G10L 25/30(2013.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于语义保留的语音唤醒方法及系统 (57)摘要 本发明涉及一种基于语义保留的语音唤醒 方法及系统。 该方法包括: 获取语音样本数据, 并 对所述语音样本数据进行特征提取, 确定连续声 学特征帧相关信息; 所述连续声学特征帧相关信 息包括: 梅尔频率倒谱系数、 帧移和单帧帧长; 利 用关键词对 所述连续声学特征帧进行标记, 确定 流式帧级别标签; 所述流式帧级别标签包括: 关 键词语义帧标签和非关键词语义帧标签; 根据连 续声学特征帧以及对应的流式帧级别标签训练 神经网络, 确定流式语音唤醒系统神经网络; 利 用流式语音唤醒系统神经网络进行语音数据的 识别, 并根据识别结果相应的进行语音唤醒。 本 发明能够提高语音唤醒的准确率和稳定性。 权利要求书2页 说明书5页 附图1页 CN 114863915 A 2022.08.05 CN 114863915 A 1.一种基于语义保留的语音唤醒 方法, 其特 征在于, 包括: 获取语音样本数据, 并对所述语音样本数据进行特征提取, 确定连续声学特征帧相关 信息; 所述连续声学 特征帧相关信息包括: 梅尔频率倒谱系数、 帧移和单帧 帧长; 利用关键词对所述连续声学特征帧进行标记, 确定流式帧级别标签; 所述流式帧级别 标签包括: 关键词语义帧标签和非关键词语义帧标签; 根据连续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系 统神经网络; 利用流式语音唤醒系统神经网络进行语音数据的识别, 并根据识别结果相应的进行语 音唤醒。 2.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述利用关 键词对所述连续声学 特征帧进行 标记, 确定流式帧级别标签, 具体包括: 对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签; 保留语义的音 素级别标签包括: 关键词语义段和非关键词语义段; 将保留语义的音素级别标签转换为 流式帧级别标签。 3.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 之前还 包括: 判断连续声学特征帧是否满足设定帧数; 所述设定帧数应涵盖语音样本数据中所有关 键词长度; 若不满足, 则在连续声学特征帧的前方进行补零, 进而达到设定帧数; 并且将补零相应 的位置标记为非关键词语义帧标签。 4.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 之前还 包括: 对连续声学 特征帧以及对应的流式帧级别标签进行 数据增强处 理。 5.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 具体包括: 根据神经网络的识别结果进行反向传播, 进而更新神经网络的参数, 完成语音唤醒神 经网络模型的训练。 6.一种基于语义保留的语音唤醒系统, 其特 征在于, 包括: 语音样本数据获取模块, 用于获取语音样本数据, 并对所述语音样本数据进行特征提 取, 确定连续声学特征帧相关信息; 所述连续声学特征帧相关信息包括: 梅尔频率倒谱系 数、 帧移和单帧 帧长; 流式帧级别标签确定模块, 用于利用关键词对所述连续声学特征帧进行标记, 确定流 式帧级别标签; 所述 流式帧级别标签包括: 关键词语义帧标签和非关键词语义帧标签; 流式语音唤醒系统神经网络确定模块, 用于根据连续声学特征帧 以及对应的流式帧级 别标签训练神经网络, 确定流式语音唤醒系统神经网络; 语音唤醒模块, 用于利用流式语音唤醒系统神经网络进行语音数据的识别, 并根据识权 利 要 求 书 1/2 页 2 CN 114863915 A 2别结果相应的进行语音唤醒。 7.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特征在于, 所述流式帧 级别标签确定模块具体包括: 音素级别标签确定单元, 用于对每一语音样本数据的连续声学特征帧标记保留语义的 音素级别标签; 保留语义的音素级别标签包括: 关键词语义段和非关键词语义段; 流式帧级别标签确定单 元, 用于将保留语义的音素级别标签转换为 流式帧级别标签。 8.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特 征在于, 还 包括: 判断模块, 用于判断连续声学特征帧是否满足设定帧数; 所述设定帧数应涵盖语音样 本数据中所有关键词长度; 补零模块, 用于若不满足, 则在连续声学特征帧的前方进行补零, 进而达到设定帧数; 并且将补零相应的位置标记为非关键词语义帧标签。 9.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特 征在于, 还 包括: 数据增强模块, 用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处 理。 10.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特征在于, 所述流式 语音唤醒系统神经网络确定模块具体包括: 流式语音唤醒系统神经网络训练单元, 用于根据神经网络的识别结果进行反向传播, 进而更新神经网络的参数, 完成语音唤醒神经网络模型的训练。权 利 要 求 书 2/2 页 3 CN 114863915 A 3

.PDF文档 专利 一种基于语义保留的语音唤醒方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义保留的语音唤醒方法及系统 第 1 页 专利 一种基于语义保留的语音唤醒方法及系统 第 2 页 专利 一种基于语义保留的语音唤醒方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。