国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210846943.0 (22)申请日 2022.07.06 (71)申请人 四川长虹电器股份有限公司 地址 621000 四川省绵阳市高新区绵兴东 路35号 (72)发明人 刘光毅 (74)专利代理 机构 四川省成 都市天策商标专利 事务所(有限合 伙) 51213 专利代理师 刘银 王荔 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于句子相似度的意图识别装置和方 法 (57)摘要 本发明公开了一种基于句子相似度的意图 识别方法, 包括: 构建带有意图的句子标准数据 集, 获得句子标准数据集的语义表征; 获取待预 测句子的语义表征, 计算待预测句子与句子标准 数据集中句子的语义表征余弦相似度, 以句子标 准数据集中余弦相似度最高的句子意图作为输 出意图。 同时, 本发明还公开了一种基于句子相 似度的意图识别装置, 利用分类模型训练, 取到 全连接层前的部分作为编码器, 输入句子获取句 子的语义表征来计算句子间的相似度; 采用的语 料数据可以和后续使用模型时预测的语料数据 完全不相关; 解决了意图识别模型迭代周 期长、 准确率不高的问题, 通过该意图识别方法可随时 增加或删减意图, 提高了 便利性。 权利要求书2页 说明书6页 附图1页 CN 115270810 A 2022.11.01 CN 115270810 A 1.一种基于句子相似度的意图识别方法, 其特 征在于, 包括: 构建带有意图的句子标准数据集, 获得句子标准数据集的语义表征; 获取待预测句子的语义表征, 计算待预测句子与句子标准数据集中句子的语义表征余 弦相似度, 以句子标准数据集中余弦相似度最高的句子意图作为输出意图。 2.根据权利要求1所述一种基于句子相似度的意图识别方法, 其特征在于, 所述意图识 别方法还 包括训练编码器, 以获得 各意图句子的语义表征, 具体为: 收集、 整理同义句子数据组, 作为训练语料; 对训练语料进行 数据预处 理; 构建模型, 将预处理后的训练语料通过Embedd、 mask、 BiLSTM、 L2处理后, 输入全连接层 按分类模型进行训练, 获取除最后全连接层外的所有部分作为编码器。 3.根据权利要求2所述一种基于句子相似度的意图识别方法, 其特征在于, 所述对训练 语料进行 数据预处 理的方法, 包括: 将全角转 为半角, 字母转 为小写; 统计各字符出现的频次, 按频次大小排序构建字典, 依据字典将句子转化为整数序列 并统一长度。 4.根据权利要求2所述一种基于句子相似度的意图识别方法, 其特征在于, 对所述预处 理后的训练语料进行处 理时, 具体包括: 在mask时, 前向直接对0遮盖, 后向传播时在遮盖前处理, 将有意义的整数反转, 填充0 不变, 保证双向传播训练时0都表示具体 语义特征。 5.根据权利要求2所述一种基于句子相似度的意图识别方法, 其特征在于, 所述编码器 使用am‑softmax约束分类。 6.根据权利要求5所述一种基于句子相似度的意图识别方法, 其特征在于, 所述am ‑ softmax约束分类的方法, 具体为: 对softmax的余弦值减去一个正数m同时缩放s倍, 得到am ‑softmax取交叉熵l oss有: 其中, p′t表示am‑softmax的值, n表示目标类别总数, t表示预测标签的期望类别, e为自 然对数底数, cosθt表示预测值与真实标签的内积, 即为预测值与真实标签的余弦相似度, m 为任意一个正数, s为缩放 倍数; 由公式一得到cosθ, 通过cosθ对句子标准数据集进行聚类, a0, a1∈N0, b0∈N1, a0, b0分别 为类别N0, N1的聚类中心, 其中, |a1‑a0|<0.5|a1‑b0|。 7.根据权利要求6所述一种基于句子相似度的意图识别方法, 其特征在于, 所述m=30, s=0.35。 8.根据权利要求2所述一种基于句子相似度的意图识别方法, 其特征在于, 所述意图识 别方法还包括: 通过定时任务工具直接配置意图所属标准语句 至编码器, 对意图进行新增 或更改; 具体为: 1).定时查询数据库, 判断更新时间的数据是否大于上次查询时间的数据; 2).如有, 则判断更改标志, 是新增还是删除;权 利 要 求 书 1/2 页 2 CN 115270810 A 23).如果为新增: 计算句子的向量表示, 按 “意图、 文本、 序列表示、 向量表示 ”的格式加 入句子标准数据集中; 如为删除: 将句子标准数据集中的 “意图”修改为无效意图。 9.一种基于句子相似度的意图识别装置, 其特 征在于, 包括: 构建单元, 用于构建带有意图的句子标准数据集, 获取单元, 获取句子标准数据集的语义表征, 作为标准语义表征数据集; 并获取待预测 句子的语义表征; 对比单元, 将待预测句子的语义表征和标准语义表征数据集进行对比, 获得余弦相似 度最高的句子意图作为输出意图。权 利 要 求 书 2/2 页 3 CN 115270810 A 3
专利 一种基于句子相似度的意图识别装置和方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:32
上传分享
举报
下载
原文档
(385.7 KB)
分享
友情链接
GA 1800.3-2021 电力系统治安反恐防范要求 第3部分:水力发电企业.pdf
H3C防火墙安全配置基线.doc
T-CI 073—2023 绿色低碳社区建设及评价技术指南.pdf
DB61-T 1505-2021 数字化转型 企业新型能力识别技术规范 陕西省.pdf
IEC62443-3-2 2020-06.pdf
JR-T 0071.2—2020 金融行业网络安全等级保护实施指引 第2部分:基本要求.pdf
GB-T 36627-2018 信息安全技术 网络安全等级保护测试评估技术指南.pdf
ISO IEC 27001-2013 - 中英对照.pdf
GB-T 28905-2022 建筑用低屈服强度钢板.pdf
GB-T 40857-2021 汽车网关信息安全技术要求及试验方法.pdf
GB-T 34944-2017 Java语言源代码漏洞测试规范.pdf
GB-T 30520-2014 会议分类和术语.pdf
DB42-T 1908-2022 建设工程档案整理与移交规范 湖北省.pdf
DB15-T 1198-2017 危险化学品行业反恐怖防范要求 内蒙古自治区.pdf
商用密码管理条例.pdf
DB23-T 3277—2022 数字化农业服务信息系统建设规范 黑龙江省.pdf
GB-T 24560-2009 电解、电镀设备节能监测.pdf
GB-T 34492-2017 500kA铝电解槽技术规范.pdf
GB-T 39752-2021 电动汽车供电设备安全要求及试验规范.pdf
绿盟 关键信息基础设施安全态势感知平台产品白皮书.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(385.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。