专利 一种基于多任务学习的短文本实体消歧方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210714659.8 (22)申请日 2022.06.23 (71)申请人江西师范大学地址 330027 江西省南昌市紫阳大道99号 (72)发明人雷刚　王永缔　易玉根　曹远龙　肖建茂　尹紫煜　 (74)专利代理机构西安铭泽知识产权代理事务所(普通合伙) 61223 专利代理师张举 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多任务学习的短文本实体消歧方法 (57)摘要本发明提供一种基于多任务学习的短文本实体消歧方法，属于自然语言处理技术领域，包括：基于知识增强型预训练语言模型，分别进行多任务学习，构建短文本实体消歧模型；其中，多任务包括：指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务；获得候选实体在指称与实体语义相似度消歧任务，以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和，将语义相似得分高的候选实体，作为最终完成实体消歧的预测实体。本发明通过多任务学习的方式让预训练模型在消歧时充分利用指称的上下文信息，学习到更多有助于实体消歧的知识，提高模型的泛化性。权利要求书2页说明书6页附图2页 CN 115081445 A 2022.09.20 CN 115081445 A 1.一种基于多任务学习的短文本实体消歧方法，其特征在于，包括以下步骤：基于知识增强型预训练语言模型，分别进行多任务学习，构建短文本实体消歧模型；其中，多任务包括：指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务；通过对抗训练后的短文本实体消歧模型对短文本实体中的待消歧指称进行预测，基于预测的待消歧指称确定多个相互独立的候选实体；获得候选实体在指称与实体语义相似度消歧任务，以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和，将语义相似得分高的候选实体，作为最终完成实体消歧的预测实体。 2.根据权利要求1所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述短文本实体消歧模型进行多任务学习中采用硬参数共享进行参数共享。 3.根据权利要求1所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称与实体语义相似度消歧任务，包括以下步骤：将指称上下文与候选实体及实体描述拼接，并进行切词处理后，在指称与候选实体的字符串开始与结束位置分别插入指称与实体标识符[ M]和[E]，以此对指称与候选实体进行标记；将标记好的序列中插入[CLS]， [ SEP]标识符，得到完整的输入序列；将序列输入到共享编码层Ernie中，基于注意力机制捕捉指称与候选实体的语义相似向量，将其与模型顶层[CLS]位置输出向量拼接；通过全连接神经网络将特征向量进行二分类。 4.根据权利要求3所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称与实体语义相似度消歧任务，采用交叉熵损失函数进行损失值计算，损失函数表示为：式中，是第i个样本对应其真实标签的输出概率， lossmention即为本任务的损失函数。 5.根据权利要求1所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称掩码与实体语义相似度消歧任务，包括以下步骤：将指称使用Ernie对应切词器切词后替换为等长的[MASK]序列，基于此得到将指称掩码的指称上下文序列s＝{[CLS],q1,q2,...[MASK]. ..[MASK],. ..,qn,[SEP]}；将序列s与实体及实体描述拼接并进行切词处理后输入到Ernie中，基于注意力机制获取指称掩码与实体的相似特征向量；将相似特征向量输入到全连接神经网络中得到指称掩码与候选实体的语义相似得分。 6.根据权利要求5所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称掩码与实体语义相似度消歧任务，采用交叉熵损失函数进行损失值计算，损失函数表示为：权　利　要　求　书 1/2 页 2 CN 115081445 A 2式中，是第i个样本对应其真实标签的输出概率， lossmask即为本任务的损失函数。 7.根据权利要求1所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称分类任务，包括以下步骤：将指称上下文进行切词后，使用指称标识符[M]对实体指称字符串的首尾位置进行标记；将标记好的指称上下文序列输入到 Ernie中得到序列的编码表示；将顶层[CLS]标识符对应输出向量输入到分类器进行指称类别的判断。 8.根据权利要求7所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述指称分类任务，采用交叉熵损失函数进行损失值计算，损失函数表示为：式中， labeli是指称类别标签， labeli为软标签； p(labeli,k)表示第i个样本指称属于其第k个类别标签的概率；是模型预测的第i个样本指称属于labeli,k的概率； losstype 即为本任务的损失函数。 9.根据权利要求1所述的基于多任务学习的短文本实体消歧方法，其特征在于，所述短文本实体消歧模型的训练过程，包括以下步骤：根据上述多个任务的输入集x及标签集y计算前向损失值、并反向传播得到模型参数的梯度；根据embed ding矩阵的梯度计算出扰动radv，并加到当前模型的embed ding矩阵上；再次输入x， y，使用加入radv的embedding矩阵对x进行表示，并进行前向损失的计算，反向传播得到对抗训练所得模型参数的梯度，将该梯度与最初模型参数的梯度，按模型参数对应相加得到所求的目标梯度；将embedding矩阵恢复为初值；根据目标梯度，结合优化器对模型参数进行更新：模型的总损失函数表示为：式中， α， β， λ为待确定的损失函数权重，模型在训练过程中采用正负比1:2的负采样方法在每轮训练选择不同的负例进行预训练语言模型的微调。权　利　要　求　书 2/2 页 3 CN 115081445 A 3

专利 一种基于多任务学习的短文本实体消歧方法

专利一种基于多任务学习的短文本实体消歧方法