(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210714659.8
(22)申请日 2022.06.23
(71)申请人 江西师范大学
地址 330027 江西省南昌市紫阳 大道99号
(72)发明人 雷刚 王永缔 易玉根 曹远龙
肖建茂 尹紫煜
(74)专利代理 机构 西安铭泽知识产权代理事务
所(普通合伙) 61223
专利代理师 张举
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/33(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多任务学习的短文本实体消歧方
法
(57)摘要
本发明提供一种基于多任务学习的短文本
实体消歧方法, 属于自然语言处理技术领域, 包
括: 基于知识增强型预训练语言模型, 分别进行
多任务学习, 构建短文本实体消歧模型; 其中, 多
任务包括: 指称与实体语义相似度消歧任务、 指
称掩码与实体语义相似度消歧任务 以及指称分
类任务; 获得候选实体在指称与实体语义相似度
消歧任务, 以及指称掩码与实体语义相似度消歧
任务上的语义相似度得分和, 将语义相似得分高
的候选实体, 作为最终完成实体消歧的预测实
体。 本发明通过多任务学习的方式让预训练模型
在消歧时充分利用指称的上下文信息, 学习到更
多有助于实体消歧的知识, 提高模型的泛化 性。
权利要求书2页 说明书6页 附图2页
CN 115081445 A
2022.09.20
CN 115081445 A
1.一种基于多任务学习的短文本实体消歧方法, 其特 征在于, 包括以下步骤:
基于知识增强型 预训练语言模型, 分别进行多任务学习, 构建 短文本实体消歧模型;
其中, 多任务包括: 指称与实体语义相似度消歧任务、 指称掩码与实体语义相似度消歧
任务以及指称分类任务;
通过对抗训练后的短文本实体消歧模型对短文本实体中的待消歧指称进行预测, 基于
预测的待消歧指称确定多个相互独立的候选实体;
获得候选实体在指称与实体语义相似度消歧任务, 以及指称掩码与实体语义相似度消
歧任务上 的语义相似度得分和, 将语义相似得分高的候选实体, 作为最终完成实体消歧的
预测实体。
2.根据权利要求1所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述短
文本实体消歧模型进行多任务学习中采用硬参数共享进行参数共享。
3.根据权利要求1所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称与实体 语义相似度消歧任务, 包括以下步骤:
将指称上下文与候选实体及实体描述拼接, 并进行切词处理后, 在指称与候选实体的
字符串开始与结束位置 分别插入指称与实体标识符[ M]和[E], 以此对指称与候选实体进 行
标记;
将标记好的序列中插 入[CLS], [ SEP]标识符, 得到 完整的输入序列;
将序列输入到共享编码层Ernie中, 基于注意力机制捕捉指称与候选实体的语义相似
向量, 将其与模型顶层[CLS]位置 输出向量 拼接;
通过全连接神经网络将特 征向量进行二分类。
4.根据权利要求3所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称与实体 语义相似度消歧任务, 采用交叉熵损失函数进行损失值计算, 损失函数表示 为:
式中,
是第i个样本对 应其真实标签的输出概率, lossmention即为本任务的损失函
数。
5.根据权利要求1所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称掩码与实体 语义相似度消歧任务, 包括以下步骤:
将指称使用Ernie对应切词器切词后替换为等长的[MASK]序列, 基于此得到将指称掩
码的指称上 下文序列s={[CLS],q1,q2,...[MASK]. ..[MASK],. ..,qn,[SEP]};
将序列s与实体及实体描述拼接 并进行切词处理后 输入到Ernie中, 基于注意力机制获
取指称掩码与实体的相似特 征向量;
将相似特 征向量输入到全连接神经网络中得到指称掩码与候选实体的语义相似得分。
6.根据权利要求5所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称掩码与实体语义相似度消歧任务, 采用交叉熵损失函数进行损失值计算, 损失函数表示
为:
权 利 要 求 书 1/2 页
2
CN 115081445 A
2式中,
是第i个样本对应其真实标签的输出概率, lossmask即为本任务的损失函
数。
7.根据权利要求1所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称分类任务, 包括以下步骤:
将指称上下文进行切词后, 使用指称标识符[M]对实体指称字符串的首尾位置进行标
记;
将标记好的指称上 下文序列输入到 Ernie中得到序列的编码表示;
将顶层[CLS]标识符对应输出向量输入到分类 器进行指称类别的判断。
8.根据权利要求7所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述指
称分类任务, 采用交叉熵损失函数进行损失值计算, 损失函数表示 为:
式中, labeli是指称类别标签, labeli为软标签; p(labeli,k)表示第i个样本指称属于其
第k个类别标签的概率;
是模型预测的第i个样本指称属于labeli,k的概率; losstype
即为本任务的损失函数。
9.根据权利要求1所述的基于多任务学习的短文本实体消歧方法, 其特征在于, 所述短
文本实体消歧模型的训练过程, 包括以下步骤:
根据上述多个任务的输入集x及标签集y计算前向损失值、 并反向传播得到模型参数的
梯度;
根据embed ding矩阵的梯度计算出扰动radv, 并加到当前模型的embed ding矩阵上;
再次输入x, y, 使用加入radv的embedding矩阵对x进行表示, 并进行前向损失的计算, 反
向传播得到对抗训练所得模型参数 的梯度, 将该梯度与最初模型参数 的梯度, 按模型参数
对应相加得到所求的目标梯度;
将embedding矩阵恢复为初值;
根据目标梯度, 结合优化器对 模型参数进行 更新:
模型的总损失函数表示 为:
式中, α, β, λ为待确定的损失函数权重, 模型在训练过程中采用正负比1:2的负采样方
法在每轮训练选择不同的负例进行 预训练语言模型的微调。权 利 要 求 书 2/2 页
3
CN 115081445 A
3
专利 一种基于多任务学习的短文本实体消歧方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:40上传分享