专利 一种基于名称的相似度匹配方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748087.5 (22)申请日 2022.06.29 (71)申请人北京医柏信息技术有限公司地址 100086 北京市海淀区中关村大街32 号5层A0661 (72)发明人王宇　刘拴喜　肖亦骞　徐国夏　 (74)专利代理机构北京市广友专利事务所有限责任公司 1 1237 专利代理师张仲波 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于名称的相似度匹配方法及装置 (57)摘要本发明涉及相似度匹配技术领域，特别是指一种基于名称的相似度匹配方法及装置，方法包括：采用对抗攻击法、打乱词序法、裁剪法和随机失活正则化法，对待匹配的注册医疗实体字段和通用名字段中的数据样本进行数据增强；输入到引入了旋转式位置嵌入的transformer的 Sentence‑BERT模型，进行编码和解码；将解码后的数据进行平均池化，得到两个句向量；根据两个句向量，计算对比损失，得到注册医疗实体字段与各数据样本的相似度；对得到的相似度进行排序，确定大于预设阈值的相似度中的最大相似度，根据最大相似度确定注册医疗实体字段对应的正确链接。这样，采用本发明，可以更快速准确地提取出通用名称。权利要求书3页说明书12页附图2页 CN 115099227 A 2022.09.23 CN 115099227 A 1.一种基于名称的相似度匹配方法，其特征在于，所述方法包括：步骤1：对待匹配的注册医疗实体字段和通用名字段中的数据样本进行数据增强，其中，所述数据预处理的方法包括对抗攻击法、打乱词序法、裁剪法和随机失活正则化法；步骤2：将数据增强后的注册医疗实体字段和通用名字段中的数据样本输入到匹配模型，进行编码和解码，其中，所述匹配模型为引入了旋转式位置嵌入的transformer的 Sentence ‑BERT模型；步骤3：基于所述匹配模型，将解码后的数据进行平均池化，得到两个句向量u和v；步骤4：根据所述两个句向量，计算对比损失，得到注册医疗实体字段与各数据样本的相似度；步骤5：对得到的相似度进行排序，确定大于预设阈值的相似度中的最大相似度，根据最大相似度确定注册医疗实体字段对应的正确链接。 2.根据权利要求1所述的基于名称的相似度匹配方法，其特征在于，所述步骤2中的进行编码和解码，包括：步骤21：设置维度d；步骤22：通过旋转式位置编码模型，对数据增强后的注册医疗实体字段和通用名字段中的数据样本进行旋转式位置嵌入；步骤23：对位置嵌入得到的数据进行编码；步骤24：对编码得到的数据进行解码。 3.根据权利要求2所述的基于名称的相似度匹配方法，其特征在于，所述步骤22中的旋转式位置编码模型包括： qm＝fq(xm,m) kn＝fk(xn,n) vn＝fv(xn,n) <fq(xm,m),fk(xn,n)>＝g(xm,xn,m‑n) 其中， fq(xm,m)为表示查询qm的函数， fk(xn,n)为表示关键字kn的函数， fv(xn,n)为表示值vn的函数， qm、 kn、 vn分别通过函数fq、 fk、 fv合并第m和第n个位置， om为输出， am,n为权重， N为输入序列所含元素的个数， T为矩阵转置， d为维度， kj为第j个关键字函数 fk(xj,j)， <fq(xm， m)， fk(xn， n)>表示查询qm函数与关键字kn函数的内积；其中，函数fq、 fk、 g(xm,xn,m‑n)为： fk(xn,n)＝(Wkxn)einθ g(xm,xn,m‑n)＝Re[(Wqxm)(Wkxn)*ei(m‑n)θ]权　利　要　求　书 1/3 页 2 CN 115099227 A 2其中， Re[·]是复数的实部， (Wkxn)*是(Wkxn)的共轭复数， θ∈R是一个预设的非零常数， (Wkxn)为仅含有相对位置信息的注意力权重矩阵Wk与位置向量xn的乘积……， f{q,k}进一步用矩阵乘法写出：其中，是插入位置的二维坐标。 4.根据权利要求3所述的基于名称的相似度匹配方法，其特征在于，所述为：其中，为相对位置嵌入。 5.根据权利要求2所述的基于名称的相似度匹配方法，其特征在于，所述步骤23 中的对位置嵌入得到的数据进行编码，包括：步骤231：将位置嵌入得到的数据输入多头注意力层，进行数据处理；步骤232：对处理后的数据进行残差连接和归一化处理；步骤233：将归一化处理后的数据输入前馈网络，进行数据处理；步骤234：进行残差连接和归一化处理。 6.根据权利要求5所述的基于名称的相似度匹配方法，其特征在于，步骤231中的将位置嵌入得到的数据输入多头注意力层，进行数据处理，包括：基于多头注意力层的下述公式，进行数据处理： headi＝Attention(Qi,Ki,Vi),i＝1,…,8 MultiHead(Q,K,V)＝Co ncat(head1,…,head8)WO 其中，向量Q,K,V分别是输入向量X在不同权重下的线性映射， φ和是非负函数， WO表示可学习的权重。 7.根据权利要求5所述的基于名称的相似度匹配方法，其特征在于，所述步骤232中的对处理后的数据进行残差连接和归一化处理，包括：根据下述公式，对处理后的数据进行残差连接和归一化处理： LayerNormalization(X+Attention(Q,K,V) ) 其中X为上一层的输入的向量， A ttention(Q,K,V)为上一层输出的处理后的数据。 8.根据权利要求5所述的基于名称的相似度匹配方法，其特征在于，所述步骤233中的将归一化处理后的数据输入前馈网络，进行数据处理，包括： FFN(x)＝ReLU(X*W1*W2) 其中， W1和W2分别表示第1层、第2层的权重参数。 9.根据权利要求2所述的基于名称的相似度匹配方法，其特征在于，所述步骤24中的对编码得到的数据进行解码，包括：步骤241：将编码得到的数据输入多头注意力层，进行数据处理；权　利　要　求　书 2/3 页 3 CN 115099227 A 3

专利 一种基于名称的相似度匹配方法及装置

专利一种基于名称的相似度匹配方法及装置