专利 一种基于混合检索的开放域表格文本问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210608960.0 (22)申请日 2022.05.31 (71)申请人浙江华巽科技有限公司地址 317600 浙江省台州市玉环市龙溪镇小山外工业园区 (72)发明人杨鹏　李文军　汤亚玲　解然　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师叶涓涓 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/30(2020.01) (54)发明名称一种基于混合检索的开放域表格文本问答方法 (57)摘要本发明公开了一种基于混合检索的开放域表格文本问答方法，包含：生成式增强、双编码器匹配、稀疏检索、密集检索和答案推理共五个步骤。首先通过生成式编码器对单元格内容进行增强，以丰富单元格的信息含量；然后通过双编码器将增强之后的单元格与候选文本进行匹配，从而构建表格文本元数据集合。之后通过稀疏检索和密集检索相结合的方式，快速检索与问题最相关的若干表格文本元数据，以缩小推理的语料范围。最后，对多个表格文本元数据进行长文本编码和推理，精确定位问题对应的答案位置。本发明能够快速地从海量的表格和文本异构数据中检索证据信息并定位问题对应的答案。权利要求书3页说明书7页附图2页 CN 115186073 A 2022.10.14 CN 115186073 A 1.一种基于混合检索的开放域表格文本问答方法，其特征在于，包括如下步骤：步骤1，生成式增强使用生成式编码器，利用表格的相关信息对单元格值进行增强，丰富单元格的信息含量；步骤2，双编码器匹配在步骤1的基础之上，本发明通过双编码器，将增强之后的单元格值和候选短文进行匹配；并将表格行与该表格行关联的所有短文抽取出来作为元数据，构建表格文本元数据集合，方便后续的检索和阅读推理；步骤3，稀疏检索利用稀疏检索器召回与问题相关的若干表格，以便快速构建表格文本元数据子集，缩小检索范围；步骤4，密集检索使用两个密集检索器在表格文本元数据集中检索与问题最相关的若干表格文本元数据；步骤5，答案推理对与问题最相关的若干表格文本元数据进行长文本编码，最后通过问答输出层来定位答案的具体位置。 2.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤1具体包括如下过程：首先对cell单元格用生成式模型进行信息增强，针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强，如公式(1)： cell′＝Decoder(title， decripti on， headers， cel l) (1) 其中， decription表示表格描述， title表示表格标题， headers表示表头信息， cell表示单元格的值；使用GPT2作为生成器模型，并通过训练集中已知的<单元格值，短文标题>作为导向进行预训练，让内容增强之后的单元格值尽可能地接近与之配对的短文的标题。 3.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤2具体包括如下过程：首先使用Bi ‑encoder模型对单元格和候选短文进行编码，将两者映射到统一的特征向量空间，分别获得单元格和短文的特征向量表示yc和yp，计算过程如公式(2)和(3)： yc＝cls(encoderbi(cell′)) (2) yp＝cls(encoderbi(passage)) (3) 其中， cls( ·)表示取模型输出的第一个CLS向量作为语义表示， encoderbi表示双向编码模型，对于单元格编码如公式(4)： [CLS]cel ll[Ms]cell′[Me]cellr[SEP] (4) 其中， celll是对应单元格的左边的单元格， cellr是该单元格右边的单元格， [Ms]， [Me] 是特殊字符，用于分割不同的单元格；对于候选短文的编码形式如公式(5)： [CLS]title[ENT]co ntext[SEP] (5) 其中， title表示候选短文的标题， context是短文的具体内容， [ENT]是特殊分割字符； Bi‑encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量，本发明采用点积权　利　要　求　书 1/3 页 2 CN 115186073 A 2的方式来计算候选短文和单元格之间的相似度Simi larity如公式(6)： Similarity(cel l， passage)＝yc*yp (6) 此处的相似度仅用于对Bi ‑encoder的训练，不作为最后单元格和短文匹配的依据；额外使用一个Cross ‑encoder来进行匹配编码，以获得不同的单元格和短文之间的匹配度 yc， p，计算过程如公式(7)： yc， p＝cls(encodercross(yc， yp)) (7) 其中， encodercross表示交叉编码器，之后通过Bi ‑encoder获得的单元格和短文的特征向量yc， yp拼接之后作为Cross ‑encoder的输入，并将输出中的c ls向量作为单元格和短文的匹配度yc， p；通过Bi‑encoder和Cross ‑encoder将所有表格中的单元格和候选短文进行匹配；之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集。 4.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤3具体包括如下过程：使用BM25算法对表格概要信息构建词频矩阵，在表格层面进行召回，针对表格的稀疏召回过程如公式(8)和(9)： Ranker＝Bul id_BM25(table title， secti on title， headers) (8) Tables＝TopK(Ran ker(questi on)) (9) 其中， Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息 headers构建BM25检索器， TopK表示根据问题召回K个最相似的表格；针对问题召回若干的表格Tables之后，从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据，构建一个表格文本元数据子集。 5.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤4具体包括如下过程：使用元数据编码器Dm(*)将所有的表格文本元数据映射到一个 d维度的实数向量空间，并且为其标号排序以方便检索，采用问题编码器Dq(*)，该编码器将问题映射到同一个d维的实数向量空间，编码过程如公式(10)和(1 1)： Q＝Dq(question) (10) M＝Dm(matedate) (11) 其中， Q和M分别表格问题和表格文本元数据的特征向量表示，之后，计算问题和表格文本元数据之间的相似度如公式(12)： Similarity(q， mateData)＝Dq(question)T·Dm(mateData) (12) 在推理阶段，用Dm(*)编码器将所有的候选元数据在离线阶段进行事先的预编码，并用 FAISS进行存储；设置一定数量的负样本用于模型的训练，记训练数据为损失计算如(13)：其中， n为训练数据里面问题的数量， m为一个训练样例中负样本的数量。 6.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述权　利　要　求　书 2/3 页 3 CN 115186073 A 3

专利 一种基于混合检索的开放域表格文本问答方法

专利一种基于混合检索的开放域表格文本问答方法