国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619901.3 (22)申请日 2022.06.02 (71)申请人 浙江华巽科技有限公司 地址 317600 浙江省台州市玉环市龙溪镇 小山外工业园区 (72)发明人 杨鹏 汤亚玲 李文军 解然  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶涓涓 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于表格检索和实体图推理的事实验 证方法与装置 (57)摘要 本发明公开了一种基于表格检索和实体图 推理的事实验证方法与装置, 方法包括如下步 骤: 首先针对输入的文本声明, 进行表格证据检 索, 得到与声明最相关的表格证据集合; 接着利 用BERT模型对表 格和文本声明进行编码, 并得到 表格和文本中的实体表示; 然后将获取的实体表 示和声明表 示构建为实体图, 并利用注意力聚合 及信息融合操作增强表格实体与声明的交互; 最 后利用最佳表格提取操作获得最终声明的验证 结果。 本发 明利用信息检索技术赋 予模型表格证 据检索的能力, 并结合图注意力以及信息融合等 操作增强模 型的验证准确率, 能够在海量语料库 中根据给定声明检索表格证据, 并结合表格证据 对网络中的声明进行真实性验证 。 权利要求书4页 说明书9页 附图2页 CN 114997155 A 2022.09.02 CN 114997155 A 1.一种基于表格 检索和实体图推理的事实验证方法, 其特 征在于, 包括如下步骤: 步骤1, 获取与文本声明相关的表格 证据集合 通过计算证据语料库中每个表格内容双元表示的TF ‑IDF向量点积来获取表格中每个 token的编码, 使用同样的方法对文本声明所包含实体的token进行编码; 根据表格单词表 示与实体表示之间的最佳匹配得分之和作为表格证据与声明之 间的匹配得分, 将得分排名 前k的表格作为检索到的证据集 合; 步骤2, 获取表格 证据集合以及文本声明的初步表示 将步骤1中获取的表格证据集合以及给定的文本声明作为BERT模型的输入, 获取初步 编码表示; 通过BERTNER对表格 证据集合中涉及的实体进行识别, 获取实体的初步表示; 步骤3, 根据抽取的实体构建并初始化实体图, 在此基础上进行图推理 将表格中的实体以及文本声明句子作为实体图中的节点, 并根据节点之间的关系构建 实体图的边, 并利用GAT 进行节点间的信息传播, 获取实体节点以及声明节点的特 征表示; 步骤4, 融合表格与声明之间的信息 经过实体图处理获得每个表格中的实体节点的特征表示后, 通过注意力聚合机制来融 合不同表格以及不同实体之间的信息, 并利用信息融合机制感知声明特 征表示; 步骤5, 获取最终对声明真实性的预测结果 将融合信息层输出的表格表示作为全连接层分类器的输入, 得到一组预测输出, 表示 根据每一个表格获得的对声明的预测; 使用联合建模表格证据的检索重排序以及声明验证 过程的方法, 获取最佳证据表格并得到声明的最终验证结果。 2.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所 述步骤1具体包括如下 过程: 首先计算表格中每 个单元包含的字词bi ‑gram的TF ‑IDF, 得到表格的TF ‑IDF向量表示: 然后, 在文本声明和表格单元或者表格标题之间搜索最长的子字符串匹配 对, 将匹配的短语表示 为链接实体, 并对链接 到的实体进行bi ‑gram的TF ‑IDF向量表示: 计算文本声明和表格之间的得分, 计算方式如式(1)所示: 将得分排名前k的表格作为检索到的证据集 合Ts。 3.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所 述步骤2具体包括如下 过程: 子步骤2‑1: 骤将Ts中的每一个表格ti与文本声明s进行连接, 在连接后的序列前添加 [CLS]标识符, 然后把这个长序列作为BERT预训练模型的输入, 并将输出的[CLS]标识符的 特征表示作为每一个 证据表格的特 征编码表示 如公式(2): ri=BERT(ti,s) (2) 同时, BERT模型输出对表格的编码表示 以及对文本声明的编码表示 其中L1和L2分别表示表格的长度和文本声明的长度; 子步骤2‑2: 对表格证据中涉及的实体进行识别, 使用BERTNER作为实体识别工具来从权 利 要 求 书 1/4 页 2 CN 114997155 A 2表格证据中提取实体, 并直接利用与实体相关的表格单元内容来生成实体表示; 具体包括: 通过构建一个二进制矩阵Me来记录实体 与表格中 每一个token之间的关系; 模型通 过在BERT编码器之上 构建一个全连接层, 将表格表示的向量维度进行转换使得 计算过程如式(3): 通过将二进制矩阵Me与表格表示ti相乘来保留与实体相关的行, 然后通过平均池化层 以及最大池化层的连接作为实体的表示Ei, 具体计算过程如下 所示: 其中, mean‑pool和max ‑pool分别 代表平均池化操作和最大池化操作, ⊙代表矩阵的元 素相乘(element ‑wise), 最终可以得到ti中的实体表示: 则所有检 索到的表格 证据中的实体表示 为: E=[E1,...,Ek]=[e1,…,em]。 4.根据权利要求3所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所 述子步骤2‑2中, 若矩阵中Me(i,j)=1, 则表示表格中的第j个tok en属于实体ei范围内, 若为 0则代表这个字符与该实体无关。 5.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所 述步骤3具体包括如下 过程: 子步骤3‑1: 首先, 模型根据声明中字符的平均池化结果将声明节点初始化为如式(7) 所示的 然后, 通过计算一个选择门g来计算声明与实体之间的相关性, 并可获得实体节点的初 始表示E(0), 计算过程如下 所示: g=σ([ λ1,…, λm]) (9) E(0)=gE=[g1e1,…,gmem] (10) 子步骤3‑2: 采用GAT来传播节点信息以进行推理; 图中节点的初始 表示为 包含m个实体节点以及一个文本声明节点; 获得第t ‑1层的节 点表示 后, 通过一个图注意力层来得到第t层的节点表示, 图 注意力层分为注意力系数计算以及结点间的加权求和; 首先通过一个线性层对上一层获得的实体表示进行处 理, 计算过程如式(1 1): 其中, 是模型的可训练参数, 然后通过共享注意力机制计算表示权 利 要 求 书 2/4 页 3 CN 114997155 A 3

.PDF文档 专利 一种基于表格检索和实体图推理的事实验证方法与装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于表格检索和实体图推理的事实验证方法与装置 第 1 页 专利 一种基于表格检索和实体图推理的事实验证方法与装置 第 2 页 专利 一种基于表格检索和实体图推理的事实验证方法与装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。