(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210608960.0
(22)申请日 2022.05.31
(71)申请人 浙江华巽科技有限公司
地址 317600 浙江省台州市玉环市龙溪镇
小山外工业园区
(72)发明人 杨鹏 李文军 汤亚玲 解然
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 叶涓涓
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/338(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于混合检索的开放域表格文本问答
方法
(57)摘要
本发明公开了一种基于混合检索的开放域
表格文本问答方法, 包含: 生 成式增强、 双编码器
匹配、 稀疏检索、 密集检索和答案推理共五个步
骤。 首先通过生成式编码器对单元格内容进行增
强, 以丰富单元格的信息含量; 然后通过双编码
器将增强之后的单元格与候选文本进行匹配, 从
而构建表格文本元数据集合。 之后通过稀疏检索
和密集检索相结合的方式, 快速检索与问题最相
关的若干表格文本元数据, 以缩小推理的语料范
围。 最后, 对多个表格文本元数据进行长文本编
码和推理, 精确定位问题对应的答案位置。 本发
明能够快速地从海量的表格和文本异构数据中
检索证据信息并定位问题对应的答案 。
权利要求书3页 说明书7页 附图2页
CN 115186073 A
2022.10.14
CN 115186073 A
1.一种基于混合检索的开 放域表格文本问答方法, 其特 征在于, 包括如下步骤:
步骤1, 生成式增强
使用生成式编码器, 利用表格的相关信息对单元格值进行增强, 丰富单元格的信息含
量;
步骤2, 双编码器匹配
在步骤1的基础 之上, 本发明通过双编码器, 将增强之后的单元格值和候选短文进行匹
配; 并将表格行与该表格行关联 的所有短文抽取出来作为元数据, 构建表格文本元数据集
合, 方便后续的检索和阅读推理;
步骤3, 稀疏检索
利用稀疏检索器召回与问题相关的若干表格, 以便快速构建表格文本元数据子集, 缩
小检索范围;
步骤4, 密集检索
使用两个密集检索器在表格文本元数据集中检索与问题最相关的若干表格文本元数
据;
步骤5, 答案推理
对与问题最相关的若干表格文本元数据进行长文本编码, 最后通过问答输出层来定位
答案的具体位置 。
2.根据权利要求1所述的基于混合检索的开放域表格文本问答方法, 其特征在于, 所述
步骤1具体包括如下 过程:
首先对cell单元格用生成式模型进行信 息增强, 针对每个单元格在检索之前利用表格
的相关信息对该 单元格进行内容增强, 如公式(1):
cell′=Decoder(title, decripti on, headers, cel l) (1)
其中, decription表示表格描述, title表示表格标题, headers表示表头信息, cell表
示单元格的值; 使用GPT2作为生 成器模型, 并通过训练集中已知的<单元格值, 短文 标题>作
为导向进行 预训练, 让内容增强之后的单 元格值尽可能地接 近与之配对的短文的标题。
3.根据权利要求1所述的基于混合检索的开放域表格文本问答方法, 其特征在于, 所述
步骤2具体包括如下 过程:
首先使用Bi ‑encoder模型对单元格和候选短文进行编码, 将两者映射到统一的特征向
量空间, 分别获得 单元格和短文的特 征向量表示yc和yp, 计算过程如公式(2)和(3):
yc=cls(encoderbi(cell′)) (2)
yp=cls(encoderbi(passage)) (3)
其中, cls( ·)表示取模型输出的第一个CLS向量作为语义表示, encoderbi表示双向编
码模型, 对于单 元格编码如公式(4):
[CLS]cel ll[Ms]cell′[Me]cellr[SEP] (4)
其中, celll是对应单元格的左边的单元格, cellr是该单元格右边的单元格, [Ms], [Me]
是特殊字符, 用于分割不同的单 元格; 对于候选短文的编码形式如公式(5):
[CLS]title[ENT]co ntext[SEP] (5)
其中, title表示候选短文的标题, context是短文的具体内容, [ENT]是特殊分割字符;
Bi‑encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量, 本发 明采用点积权 利 要 求 书 1/3 页
2
CN 115186073 A
2的方式来计算 候选短文和单 元格之间的相似度Simi larity如公式(6):
Similarity(cel l, passage)=yc*yp (6)
此处的相似度仅用于对Bi ‑encoder的训练, 不作为最后单元格和 短文匹配的依据; 额
外使用一个Cross ‑encoder来进行匹配编码, 以获得不同的单元格和短文之间的匹配度
yc, p, 计算过程如公式(7):
yc, p=cls(encodercross(yc, yp)) (7)
其中, encodercross表示交叉编码器, 之后通过Bi ‑encoder获得的单元格和短文的特征
向量yc, yp拼接之后作为Cross ‑encoder的输入, 并将输出中的c ls向量作为单元格和短文的
匹配度yc, p;
通过Bi‑encoder和Cross ‑encoder将所有表格中的单元格和候选短文进行匹配; 之后
节抽取表格行以及与这些表格行 所关联的所有短文构成表格文本元 数据集。
4.根据权利要求1所述的基于混合检索的开放域表格文本问答方法, 其特征在于, 所述
步骤3具体包括如下 过程:
使用BM25算法对表格概要信息构建词频矩阵, 在表格层面进行召回, 针对表格的稀疏
召回过程如公式(8)和(9):
Ranker=Bul id_BM25(table title, secti on title, headers) (8)
Tables=TopK(Ran ker(questi on)) (9)
其中, Bulid_BM25表示根据表格标题table title、 分类标题section title、 表头信息
headers构建BM25检索器, TopK表示根据问题召回K个最相似的表格; 针对问题召回若干的
表格Tables之后, 从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据, 构
建一个表格文本元 数据子集。
5.根据权利要求1所述的基于混合检索的开放域表格文本问答方法, 其特征在于, 所述
步骤4具体包括如下 过程:
使用元数据编码器Dm(*)将所有的表格文本元数据映射到一个 d维度的实数向量空间,
并且为其标号排序以方便检索, 采用问题编码器Dq(*), 该编码器将问题映射到同一个d维
的实数向量空间, 编码过程如公式(10)和(1 1):
Q=Dq(question) (10)
M=Dm(matedate) (11)
其中, Q和M分别表格问题和表格文本元数据的特征向量表示, 之后, 计算问题和表格文
本元数据之间的相似度如公式(12):
Similarity(q, mateData)=Dq(question)T·Dm(mateData) (12)
在推理阶段, 用Dm(*)编码器将所有的候选元数据在离线阶段进行事先的预编码, 并用
FAISS进行存储; 设置一定数量的负样本用于模型的训练 , 记训练数据为
损失计算如(13):
其中, n为训练数据里面问题的数量, m为 一个训练样例中负 样本的数量。
6.根据权利要求1所述的基于混合检索的开放域表格文本问答方法, 其特征在于, 所述权 利 要 求 书 2/3 页
3
CN 115186073 A
3
专利 一种基于混合检索的开放域表格文本问答方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:16上传分享