(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748087.5
(22)申请日 2022.06.29
(71)申请人 北京医柏信息技 术有限公司
地址 100086 北京市海淀区中关村大街32
号5层A0661
(72)发明人 王宇 刘拴喜 肖亦骞 徐国夏
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于名称的相似度匹配方法及装置
(57)摘要
本发明涉及相似度匹配技术领域, 特别是指
一种基于名称的相似度匹配方法及装置, 方法包
括: 采用对抗攻击法、 打乱词序法、 裁剪法和随机
失活正则化法, 对待匹配的注册医疗实体字段和
通用名字段中的数据样本进行数据增强; 输入到
引入了旋转式位置嵌入的transformer的
Sentence‑BERT模型, 进行编码和解码; 将解码后
的数据进行平均池化, 得到两个句向量; 根据两
个句向量, 计算对比损失, 得到注册医疗实体字
段与各数据样本的相似度; 对 得到的相似度进行
排序, 确定大于预设阈值的相似度中的最大相似
度, 根据最大相似度确定注册医疗实体字段对应
的正确链接。 这样, 采用本发明, 可以更快速准确
地提取出通用名称。
权利要求书3页 说明书12页 附图2页
CN 115099227 A
2022.09.23
CN 115099227 A
1.一种基于名称的相似度匹配方法, 其特 征在于, 所述方法包括:
步骤1: 对待匹配的注册医疗实体字段和通用名字段中的数据样本进行数据增强, 其
中, 所述数据预处 理的方法包括对抗 攻击法、 打乱词序法、 裁 剪法和随机失活正则化法;
步骤2: 将数据增强后的注册医疗实体字段和通用名字段中的数据样本输入到匹配模
型, 进行编码和解码, 其中, 所述匹配模型为引入了旋转式位置嵌入的transformer的
Sentence ‑BERT模型;
步骤3: 基于所述匹配模型, 将解码后的数据进行平均池化, 得到 两个句向量u和v;
步骤4: 根据所述两个句向量, 计算对比损失, 得到注册医疗实体字段与各数据样本的
相似度;
步骤5: 对得到的相似度进行排序, 确定大于预设阈值的相似度中的最大相似度, 根据
最大相似度确定注 册医疗实体字段对应的正确链接 。
2.根据权利要求1所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤2中的进
行编码和解码, 包括:
步骤21: 设置维度d;
步骤22: 通过旋转式位置编码模型, 对数据增强后的注册医疗实体字段和通用名字段
中的数据样本进行旋转式位置嵌入;
步骤23: 对位置嵌入得到的数据进行编码;
步骤24: 对编码得到的数据进行解码。
3.根据权利要求2所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤22中的旋
转式位置编码模型包括:
qm=fq(xm,m)
kn=fk(xn,n)
vn=fv(xn,n)
<fq(xm,m),fk(xn,n)>=g(xm,xn,m‑n)
其中, fq(xm,m)为表示查询qm的函数, fk(xn,n)为表示关键字kn的函数, fv(xn,n)为表示
值vn的函数, qm、 kn、 vn分别通过函数fq、 fk、 fv合并第m和第n个 位置, om为输出, am,n为权重, N为
输入序列所含元素的个数, T为矩阵转置, d为维度, kj为第j个关键字函数 fk(xj,j), <fq(xm,
m), fk(xn, n)>表示 查询qm函数与关键 字kn函数的内积;
其中, 函数fq、 fk、 g(xm,xn,m‑n)为:
fk(xn,n)=(Wkxn)einθ
g(xm,xn,m‑n)=Re[(Wqxm)(Wkxn)*ei(m‑n)θ]权 利 要 求 书 1/3 页
2
CN 115099227 A
2其中, Re[·]是复数的实部, (Wkxn)*是(Wkxn)的共轭复数, θ∈R是一个预设的非零常数,
(Wkxn)为仅含有相对位置信息的注意力权重矩阵Wk与位置向量xn的乘积……, f{q,k}进一步
用矩阵乘法写出:
其中,
是插入位置的二维坐标。
4.根据权利要求3所述的基于名称的相似度匹配方法, 其特 征在于, 所述
为:
其中,
为相对位置嵌入。
5.根据权利要求2所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤23 中的对
位置嵌入得到的数据进行编码, 包括:
步骤231: 将位置嵌入得到的数据输入多头注意力层, 进行 数据处理;
步骤232: 对处 理后的数据进行残差连接和归一 化处理;
步骤233: 将归一 化处理后的数据输入前馈网络, 进行 数据处理;
步骤234: 进行残差连接和归一 化处理。
6.根据权利要求5所述的基于名称的相似度匹配方法, 其特征在于, 步骤231中的将位
置嵌入得到的数据输入多头注意力层, 进行 数据处理, 包括:
基于多头注意力层的下述公式, 进行 数据处理:
headi=Attention(Qi,Ki,Vi),i=1,…,8
MultiHead(Q,K,V)=Co ncat(head1,…,head8)WO
其中, 向量Q,K,V分别是输入向量X在不同权重下的线性映射, φ和
是非负函数,
WO表示可学习的权 重。
7.根据权利要求5所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤232中的
对处理后的数据进行残差连接和归一 化处理, 包括:
根据下述公式, 对处 理后的数据进行残差连接和归一 化处理:
LayerNormalization(X+Attention(Q,K,V) )
其中X为上一层的输入的向量, A ttention(Q,K,V)为上一层输出的处 理后的数据。
8.根据权利要求5所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤233中的
将归一化处理后的数据输入前馈网络, 进行 数据处理, 包括:
FFN(x)=ReLU(X*W1*W2)
其中, W1和W2分别表示第1层、 第2层的权 重参数。
9.根据权利要求2所述的基于名称的相似度匹配方法, 其特征在于, 所述步骤24中的对
编码得到的数据进行解码, 包括:
步骤241: 将编码得到的数据输入多头注意力层, 进行 数据处理;权 利 要 求 书 2/3 页
3
CN 115099227 A
3
专利 一种基于名称的相似度匹配方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:34上传分享