国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210674984.6 (22)申请日 2022.06.15 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 毛云青 陈思瑶 陈刚 王国梁  曹喆  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 董超 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/28(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 一种实体和实体 关系联合抽取方法、 装置及 应用 (57)摘要 本申请提出了一种实体和实体关系联合抽 取方法、 装置及应用, 包括以下步骤: 获取至少一 待抽取文本的字序列以及所述字序列中每个字 的字向量; 将所述字序列按照行列分别排列构成 字对表,并将每个字的字向量填到所述字对表中 得到字对向量表; 将所述字对向量表输入到实体 和实体关系联合抽取模型中,采用动态空洞卷积 进行编码得到多个不同跨度的编码结果; 将每一 所述编码结果分别进行解码得到解码结果; 汇总 所述解码结果得到所述待抽取文本的实体和实 体关系。 本申请实施例对实体识别任务和实体关 系抽取任务进行统一, 提高了实体识别和实体关 系识别的准确率。 权利要求书2页 说明书8页 附图5页 CN 114936247 A 2022.08.23 CN 114936247 A 1.一种实体和实体关系联合抽取 方法, 其特 征在于, 包括以下步骤: 获取至少一待抽取文本的字序列以及所述字序列中每 个字的字向量; 将所述字序列按照所述字序列的排列顺序依照行列分别排列构 成字对表, 并将所述字 序列中每 个字的字向量 填到所述字对表中得到 字对向量表; 将所述字对向量表输入到实体和实体关系联合抽取模型中, 采用动态 空洞卷积进行编 码得到多个不同跨度的编码结果; 将每一所述编码结果分别进行解码得到解码结果, 其中每一所述解码结果负责预测所 述字对向量表中对应的区域的实体和实体关系; 汇总所述 解码结果得到所述待抽取文本的实体和实体关系。 2.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 在 “获取至 少一待抽取文本的字序列以及所述字序列中每个字的字 向量”步骤中, 所述字序列的长度 为第一设定阈值, 对所述字序列中的每 个字都获取一个维度为第二设定阈值的字向量。 3.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 在 “将所述 字序列按照所述字序列的排列顺序依照行列分别排列构成字对表, 并将所述字序列中每个 字的字向量填到所述字对表中得到字对向量表 ”步骤中, 所述字对表的行长和列长均为所 述第一设定阈值, 所述字对向量表的维度为第一设定阈值*第一设定阈值*第二设定阈值。 4.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 所述实体和 实体关系联合抽取模型由编 码模块和解码模块构成, 所述编码模块由第一编码子模块和 第 二编码子模块串联组成, 每个所述第一编码子模块和第二编码子模块中包括动态空洞卷 积、 卷积核 大小为1的卷积和轻量卷积, 每个所述第一编 码子模块和 第二编码子模块中卷积 核的通道数不同, 所述第一编码子模块中的轻量卷积的跨距 为2进行下采样操作, 所述第二 编码子模块的轻量卷积的跨距为1, 每个所述第二编码子模块前一层都接上采样层进行上 采样操作, 所述第二编码子模块的数目比所述第一编码子模块的数目少1, 每个所述第二编 码子模块分别输出不同的编码结果, 所述 解码模块对所述编码结果进行解码。 5.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 所述动态 空 洞卷积中包含自适应注意力模块, 将前一层的输出结果输入到所述自适应注意力模块中加 权得到多个加权系数, 将 每个所述加权系数分别于不同空洞率的空洞卷积相乘得到多个动 态空洞卷积。 6.根据权利要求5所述的一种实体和实体关系联合抽取方法, 其特征在于, 所述自适应 注意力模块由两个全连接层和一个归一化指数函数层组成, 所述两个全连接层的维度不 同。 7.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 在 “将每一 所述编码结果分别进行解码得到解码结果 ”步骤中, 所述编码结果中每个卷积后的区域都 与所述字对向量表中的一个待 预测区域相对应, 用来预测所述待 预测区域的实体和实体关 系。 8.根据权利要求7所述的一种实体和实体关系联合抽取方法, 其特征在于, 所述编码结 果通过映射的方法映射到所述字对向量表的待预测区域中。 9.根据权利要求1所述的一种实体和实体关系联合抽取方法, 其特征在于, 在 “汇总所 述解码结果 ”步骤中, 对所有的解码结果采用非极大值抑制的方法来对交并比大于第三设权 利 要 求 书 1/2 页 2 CN 114936247 A 2定阈值的解码结果进行排除。 10.一种实体和实体关系联合抽取装置, 其特 征在于, 包括: 获取模块: 获取至少一待抽取文本的字序列以及所述字序列中每 个字的字向量; 构建模块: 将所述字序列按照所述字序列的排列顺序依照行列分别排列构成字对表, 并将所述字序列中每 个字的字向量 填到所述字对表中得到 字对向量表; 编码模块: 将所述字对向量表输入到实体和关系联合抽取模型中, 采用动态空洞卷积 进行编码得到多个不同跨度的编码结果; 解码预测模块: 将每一所述编码结果分别进行解码得到解码结果, 其中每一所述解码 结果负责预测所述字对向量表中对应的区域的实体和关系 汇总模块: 汇总所述 解码结果得到所述待抽取文本的实体和实体关系。 11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑9任一所述的一种实体和 实体关系联合抽取 方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑9任一 项所述一种实体和实体关系联合抽取 方法。权 利 要 求 书 2/2 页 3 CN 114936247 A 3

.PDF文档 专利 一种实体和实体关系联合抽取方法、装置及应用

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体和实体关系联合抽取方法、装置及应用 第 1 页 专利 一种实体和实体关系联合抽取方法、装置及应用 第 2 页 专利 一种实体和实体关系联合抽取方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。