(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210544384.8
(22)申请日 2022.05.19
(71)申请人 山东新一代信息产业 技术研究院有
限公司
地址 250013 山东省济南市高新区港兴三
路北段未来创业广场3号楼1 1-12层
(72)发明人 李沛 李晓瑜 冯落落 冯卫森
尹青山
(74)专利代理 机构 北京君慧知识产权代理事务
所(普通合伙) 11716
专利代理师 王彬
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06F 16/33(2019.01)
(54)发明名称
一种文本 语义匹配方法及设备
(57)摘要
本申请实施例公开了一种文本语义匹配方
法及设备。 通过预设相似度组合算法, 对用户输
入的文本与预设语料库中的文本进行第一相似
度计算, 以在预设语料库中筛选出参考语料集
合; 其中, 参考语料集合中的语料所对应的第一
相似度大于预设相似度阈值; 预设语料库包括多
个语料以及多个语料分别对应有文本语义; 将用
户输入的文本以及参考语料集合输入预设SBERT
模型, 通过预设SBERT模型对用户输入的文本进
行第一序列向量提取, 以及通过预设SBERT模型
对参考语料集合中的语料进行第二序列向量提
取; 通过预设SBERT模型, 确定 出第一序列向量与
多个第二序列向量分别对应的第二相似度, 以根
据第二相似度确定出与用户输入的文本所对应
的文本语义。
权利要求书2页 说明书7页 附图1页
CN 114861674 A
2022.08.05
CN 114861674 A
1.一种文本语义匹配方法, 其特 征在于, 所述方法包括:
通过预设相似度组合算法, 对用户输入的文本与 预设语料库中的文本进行第 一相似度
计算, 以在所述预设语料库中筛选出参考语料集合; 其中, 所述参考语料集合中的语料所对
应的第一相似度大于预设相似度阈值; 所述预设语料库包括多个语料以及所述多个语料分
别对应有 文本语义;
将所述用户输入的文本以及所述参考语料集合输入预设SBERT模型, 通过所述预设
SBERT模型对所述用户输入的文本进行第一序列向量提取, 以及通过所述预设SBERT模 型对
所述参考语料集 合中的语料进行第二序列向量 提取;
通过所述预设SBERT模型, 确定出所述第一序列向量与多个所述第二序列向量分别对
应的第二相似度, 以根据所述第二相似度确定出与所述用户输入的文本所对应的文本语
义。
2.根据权利要求1所述的一种 文本语义匹配方法, 其特征在于, 所述预设相似度组合算
法至少包括BM25算法、 最小距离算法、 同义词替换算法以及错别字纠错算法中的一项或多
项。
3.根据权利要求1所述的一种 文本语义匹配方法, 其特征在于, 所述通过预设相似度组
合算法, 对用户输入的文本与预设语料库中的文本进行第一相似度计算, 以在所述预设语
料库中筛 选出参考语料集 合, 具体包括:
通过所述相似度组合算法中的多种算法, 分别对所述用户输入的文本与所述预设语料
库中的文本进行第一相似度计算;
确定所述预设语料库中的每 个语料分别对应的多个第一相似度;
将每个语料分别对应的多个第 一相似度与 所述预设相似度阈值进行比对, 在当前语料
所对应的多个第一相似度均大于所述预设相似度阈值的情况下, 将所述当前语料作为所述
参考语料集 合中的语料。
4.根据权利要求1所述的一种 文本语义匹配方法, 其特征在于, 所述将所述用户输入的
文本以及所述 参考语料集 合输入预设SBERT模型, 具体包括:
将所述用户输入的文本与所述参考语料集合, 分别输入所述预设SBERT模型中的子网
络模型;
其中, 所述子网络模型为 参数共享的多个BERT模型。
5.根据权利要求1所述的一种文本语义匹配方法, 其特征在于, 所述通过所述预设
SBERT模型对所述用户输入的文本进行第一序列向量 提取, 具体包括:
通过所述SBERT模型的Transformer层对所述用户输入的文本进行编码, 以将所述用户
输入的文本转换为所述SBERT模型 所对应的编码格式;
基于预设字符长度与所述SBERT模型, 对所述用户输入的文本进行文本划分, 得到所述
用户输入的文本对应的第一序列向量。
6.根据权利要求1所述的一种文本语义匹配方法, 其特征在于, 所述通过所述预设
SBERT模型对所述 参考语料集 合中的语料进行第二序列向量 提取, 具体包括:
通过所述SBERT模型的Transformer层对所述参考语料集合 中的语料进行编码, 以将所
述参考语料集 合中的语料转换为所述SBERT模型 所对应的编码格式;
基于预设字符长度与所述SBERT模型, 对所述参考语料集合中的语料进行文本划分, 得权 利 要 求 书 1/2 页
2
CN 114861674 A
2到所述参考语料集 合中的语料对应的第二序列向量。
7.根据权利要求1所述的一种文本语义匹配方法, 其特征在于, 所述通过所述预设
SBERT模型, 确定出所述第一序列向量与多个所述第二序列向量分别对应的第二相似度, 具
体包括:
通过所述SBERT模型确定所述第一序列向量中的第一数据内容, 以及确定出所述第二
序列向量中的第二数据内容;
对所述第一数据内容分别与多个所述第 二数据内容进行关联度计算, 以得到所述第 一
序列向量分别与所述多个第二序列向量之间的第二相似度。
8.根据权利要求1所述的一种 文本语义匹配方法, 其特征在于, 所述根据 所述第二相似
度确定出与所述用户输入的文本所对应的文本语义, 具体包括:
确定出所述参考语料集 合中的语料分别对应的第二相似度;
基于所述第一相似度, 以及预设权重值模板, 确定出所述参考语料集合中的语料分别
对应的权 重值;
将所述权重值与所述第 二相似度进行乘积计算, 将乘积最高的第 二相似度所对应的语
料含义, 作为与所述用户输入的文本相匹配的文本语义。
9.根据权利要求1所述的一种 文本语义匹配方法, 其特征在于, 所述通过预设相似度组
合算法, 对用户输入的文本与预设语料库中的文本进行第一相似度计算之前, 所述方法还
包括:
获取所述用户输入的文本;
对所述用户输入的文本进行数据清洗, 以确定出所述用户输入的文本中的问题数据;
其中, 所述问题数据至少包括重复数据与损坏数据中的一项或多 项;
将所述重复数据进行删除处 理; 以及
基于预设文本模板, 对所述损坏数据进行修复处 理。
10.一种文本语义匹配设备, 包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够:
通过预设相似度组合算法, 对用户输入的文本与 预设语料库中的文本进行第 一相似度
计算, 以在所述预设语料库中筛选出参考语料集合; 其中, 所述参考语料集合中的语料所对
应的第一相似度大于预设相似度阈值; 所述预设语料库包括多个语料以及所述多个语料分
别对应有 文本语义;
将所述用户输入的文本以及所述参考语料集合输入预设SBERT模型, 通过所述预设
SBERT模型对所述用户输入的文本进行第一序列向量提取, 以及通过所述预设SBERT模 型对
所述参考语料集 合中的语料进行第二序列向量 提取;
通过所述预设SBERT模型, 确定出所述第一序列向量与多个所述第二序列向量分别对
应的第二相似度, 以根据所述第二相似度确定出与所述用户输入的文本所对应的文本语
义。权 利 要 求 书 2/2 页
3
CN 114861674 A
3
专利 一种文本语义匹配方法及设备
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:21上传分享