(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221079747 7.1
(22)申请日 2022.07.08
(71)申请人 西北工业大 学
地址 710072 陕西省西安市友谊西路
(72)发明人 梁韵基 刘磊 胡航语 郑贺源
(74)专利代理 机构 西安凯多 思知识产权代理事
务所(普通 合伙) 61290
专利代理师 刘涛
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于对比表示学习的复杂因果关系抽
取方法
(57)摘要
本发明公开了一种基于对比表示学习的复
杂因果关系抽取方法, 首先, 为了将隐式因果关
系转化成显式因果关系, 从大规模 数据集中寻找
具有显式因果关系连接词的样例集合初始化记
忆动量, 这些样例以<原因, 结果, 因果连接词>三
元组的形式组织; 接着, 获取训练数据集中的文
本包含的因果论元集合, 将这些因果论元与记忆
动量中的因果论元三元组进行匹配, 选取相似度
最高的因果 关系连接词, 作为数据增强的因果关
系连接词构造正样例; 互换正样例中原因和结果
的位置, 构造负样例。 最后, 采用对比学习框架,
以双向长短期记忆网络和Tran sformer作为主干
网络, 学习文本中包含的因果关系。 本发明能解
决复杂因果 关系抽取困难的问题, 大幅提高模型
的抽取性能。
权利要求书2页 说明书4页 附图1页
CN 115146618 A
2022.10.04
CN 115146618 A
1.一种基于对比表示学习的复杂因果关系抽取 方法, 其特 征在于, 包括如下步骤:
步骤1: 记 忆动量初始化;
记忆动量用于因果关系连接词的选取, 在训练模型之前, 首先在数据集中寻找具有因
果关系连接词的样例集合, 将其表示成
的因果三元组, 将提取出来的
样例集合以字典的形 式存储; 其中, xci和xei分别表示记忆动量D中第i个 因果三元组的原因
和结果, ωi表示对应的因果连接词, m表示D中因果关系三元组的数量;
步骤2: 使用记 忆动量进行 数据增强, 来构造正样例;
对文本中的每一对因果论元 R=(xc, xe), 其中xc和xe分别表示文本中每一对因果论元的
原因和结果, 进行向量表示, 并进行拼接得到XR=Concat(xc, xe), 其中xc和xe分别是xc和xe
的向量表示; 将文本中的因果论元XR与记忆动量中的每一对因果论元Xi=Concat(xci, xei)
进行相似度匹配, 其中xci和xei分别是xci和xei的向量表示; 计算XR和Xi的相似度, 获取相似
度最高的因果关系连接词, 与文本中的因果论元构造正样例Xpos=<xc,ωp,xe>, ωp表示相
似度最大的因果连接词; 计算公式如下:
式中, Si表示XR和Xi的余弦相似度, index( ·)表示取下标的函数, p表示相似度最大的
下标;
步骤3: 通过 方向逆反构造负 样例;
将正样例的原因和结果互换位置获取负 样例, 负样例的形式为Xneg=<xe,ωp,xc>;
步骤4: 构造完正负样例后, 将数据集中的原始文本和正负样例分别 输入到对比表示学
习框架的两个编码器中, 对两个编码器的输出进行余弦相似度衡量, 如果相 似度大于0.5,
则输出标签
表示输入的样例 是原始文本中的一对因果关系; 否则
表示输入
的样例不是原 始文本中的一对因果关系; 所述对比表示学习框架由深度学习模型构成;
深度学习模型采用两层结构: 双向长短期记 忆网络和Transformer;
对深度学习模型进行建模:
L=(1‑λ )·L1+λ·L2
其中 L1是 对比 损失 , L2是 平 均绝 对 误 差 , L 是 本 发 明 的 最 终 建 模 模 型 ,
表示向量
和向量
之间的欧氏距离, 向量
和向量
分别表示模
型中两个编码器的输出, t>0是定义的半径阈值, 如果两个样例匹配, Y= 1; 否则Y=0; λ表 示
两个损失函数之间的权重, n表示数据集的大小, yi表示样本的真实标签,
表示模型预测权 利 要 求 书 1/2 页
2
CN 115146618 A
2的标签。权 利 要 求 书 2/2 页
3
CN 115146618 A
3
专利 一种基于对比表示学习的复杂因果关系抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:48上传分享