国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210780418.3 (22)申请日 2022.07.05 (71)申请人 中科南京智能技 术研究院 地址 211100 江苏省南京市江宁区创研路 266号麒麟人工智能产业园1号楼5层 (72)发明人 李郡 付冠宇 王啸 尚德龙 周玉梅 (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 赵兴华 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 25/24(2013.01)G10L 25/30(2013.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于语义保留的语音唤醒方法及系统 (57)摘要 本发明涉及一种基于语义保留的语音唤醒 方法及系统。 该方法包括: 获取语音样本数据, 并 对所述语音样本数据进行特征提取, 确定连续声 学特征帧相关信息; 所述连续声学特征帧相关信 息包括: 梅尔频率倒谱系数、 帧移和单帧帧长; 利 用关键词对 所述连续声学特征帧进行标记, 确定 流式帧级别标签; 所述流式帧级别标签包括: 关 键词语义帧标签和非关键词语义帧标签; 根据连 续声学特征帧以及对应的流式帧级别标签训练 神经网络, 确定流式语音唤醒系统神经网络; 利 用流式语音唤醒系统神经网络进行语音数据的 识别, 并根据识别结果相应的进行语音唤醒。 本 发明能够提高语音唤醒的准确率和稳定性。 权利要求书2页 说明书5页 附图1页 CN 114863915 A 2022.08.05 CN 114863915 A 1.一种基于语义保留的语音唤醒 方法, 其特 征在于, 包括: 获取语音样本数据, 并对所述语音样本数据进行特征提取, 确定连续声学特征帧相关 信息; 所述连续声学 特征帧相关信息包括: 梅尔频率倒谱系数、 帧移和单帧 帧长; 利用关键词对所述连续声学特征帧进行标记, 确定流式帧级别标签; 所述流式帧级别 标签包括: 关键词语义帧标签和非关键词语义帧标签; 根据连续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系 统神经网络; 利用流式语音唤醒系统神经网络进行语音数据的识别, 并根据识别结果相应的进行语 音唤醒。 2.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述利用关 键词对所述连续声学 特征帧进行 标记, 确定流式帧级别标签, 具体包括: 对每一语音样本数据的连续声学特征帧标记保留语义的音素级别标签; 保留语义的音 素级别标签包括: 关键词语义段和非关键词语义段; 将保留语义的音素级别标签转换为 流式帧级别标签。 3.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 之前还 包括: 判断连续声学特征帧是否满足设定帧数; 所述设定帧数应涵盖语音样本数据中所有关 键词长度; 若不满足, 则在连续声学特征帧的前方进行补零, 进而达到设定帧数; 并且将补零相应 的位置标记为非关键词语义帧标签。 4.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 之前还 包括: 对连续声学 特征帧以及对应的流式帧级别标签进行 数据增强处 理。 5.根据权利要求1所述的一种基于语义保留的语音唤醒方法, 其特征在于, 所述根据连 续声学特征帧以及对应的流式帧级别标签训练神经网络, 确定流式语音唤醒系统神经网 络, 具体包括: 根据神经网络的识别结果进行反向传播, 进而更新神经网络的参数, 完成语音唤醒神 经网络模型的训练。 6.一种基于语义保留的语音唤醒系统, 其特 征在于, 包括: 语音样本数据获取模块, 用于获取语音样本数据, 并对所述语音样本数据进行特征提 取, 确定连续声学特征帧相关信息; 所述连续声学特征帧相关信息包括: 梅尔频率倒谱系 数、 帧移和单帧 帧长; 流式帧级别标签确定模块, 用于利用关键词对所述连续声学特征帧进行标记, 确定流 式帧级别标签; 所述 流式帧级别标签包括: 关键词语义帧标签和非关键词语义帧标签; 流式语音唤醒系统神经网络确定模块, 用于根据连续声学特征帧 以及对应的流式帧级 别标签训练神经网络, 确定流式语音唤醒系统神经网络; 语音唤醒模块, 用于利用流式语音唤醒系统神经网络进行语音数据的识别, 并根据识权 利 要 求 书 1/2 页 2 CN 114863915 A 2别结果相应的进行语音唤醒。 7.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特征在于, 所述流式帧 级别标签确定模块具体包括: 音素级别标签确定单元, 用于对每一语音样本数据的连续声学特征帧标记保留语义的 音素级别标签; 保留语义的音素级别标签包括: 关键词语义段和非关键词语义段; 流式帧级别标签确定单 元, 用于将保留语义的音素级别标签转换为 流式帧级别标签。 8.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特 征在于, 还 包括: 判断模块, 用于判断连续声学特征帧是否满足设定帧数; 所述设定帧数应涵盖语音样 本数据中所有关键词长度; 补零模块, 用于若不满足, 则在连续声学特征帧的前方进行补零, 进而达到设定帧数; 并且将补零相应的位置标记为非关键词语义帧标签。 9.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特 征在于, 还 包括: 数据增强模块, 用于对连续声学特征帧以及对应的流式帧级别标签进行数据增强处 理。 10.根据权利要求6所述的一种基于语义保留的语音唤醒系统, 其特征在于, 所述流式 语音唤醒系统神经网络确定模块具体包括: 流式语音唤醒系统神经网络训练单元, 用于根据神经网络的识别结果进行反向传播, 进而更新神经网络的参数, 完成语音唤醒神经网络模型的训练。权 利 要 求 书 2/2 页 3 CN 114863915 A 3
专利 一种基于语义保留的语音唤醒方法及系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:34
上传分享
举报
下载
原文档
(336.4 KB)
分享
友情链接
GB-T 21053-2023 信息安全技术 公钥基础设施 PKI系统安全技术要求.pdf
YD-T 3838-2021 通信制造业绿色工厂评价细则.pdf
GB-T 32789-2016 轮胎噪声测试方法 转鼓法.pdf
NB-T 10924-2022 风力发电机组 变桨电机 技术规范.pdf
GB-T 36399-2018 连续热镀铝硅合金镀层钢板及钢带.pdf
ISO TS 44006 2023 Collaborative business relationship management — Guidelines for.pdf
GB 30000.20-2013 化学品分类和标签规范 第20部分:严重眼损伤-眼刺激.pdf
ISO 31000-2018 风险管理标准 中文.pdf
《信息安全技术 关键信息基础设施安全保障指标体系》.pdf
GB-Z 24294.1-2018 信息安全技术 基于互联网电子政务信息安全实施指南 第1部分:总则.pdf
DB32-T 3702-2019 江苏省日照分析技术规程 江苏省.pdf
T-ACEF 071—2023 燃煤电厂耦合处理城镇污水处理厂污泥污染物控制要求.pdf
GB-T 29862-2013 纺织品 纤维含量的标识.pdf
T-SMA 0030—2022 智能电力井盖监测模块检验规范 第2部分:倾角.pdf
TCII001 网络安全人员角色分类和能力要求框架 2019.pdf
SY-T 0538-2021 管式加热炉规范.pdf
法律法规 杭州市民用建筑节能条例2014-12-31.pdf
GB-T 11346-2018 铝合金铸件射线照相检测 缺陷分级.pdf
DB23-T 1574—2020 森林火灾林木损失调查评估技术规程 黑龙江省.pdf
GB-T 41339.2-2022 海洋生态修复技术指南 第2部分:珊瑚礁生态修复.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(336.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。