专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210716568.8 (22)申请日 2022.06.23 (71)申请人天津理工大学地址 300384 天津市西青区宾水西道391号 (72)发明人马泽伟　张飞飞　徐常胜　 (74)专利代理机构南京智造力知识产权代理有限公司 32382 专利代理师王军丽 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称一种基于反事实推理的跨模态检索模型、方法及计算机设备 (57)摘要本发明公开了一种基于反事实推理的跨模态检索模型、方法及计算机设备，包括：提取原始图片和文本的特征，使用反事实对比学习构建样本的正负样本。采用反事实方法分别生成实例级、图像级的正负样本，使模型关注图片细节信息及全局场景信息；生成文本在语义级的反事实样本，构建语义级的对比学习，实现跨模态语义关系；将上述部分融合得到跨模态检索模型并整体训练。本发明将反事实推理的多级对比学习应用在跨模态检索中，构造文本特征和图片特征对齐模块，对生成反事实样本进行指导，分别在实例级、图像级和语义级构建反事实对比样本，通过反事实对比学习，缓解由于数据集的数据分布不均导致的虚假问题，提升模型的语义对齐能力以及模型准确度。权利要求书3页说明书6页附图2页 CN 115146100 A 2022.10.04 CN 115146100 A 1.一种基于反事实推理的跨模态检索模型，其特征在于，该模型由以下步骤得到： S1、分别提取原始的图片特征和文本特征，将得到的图片特征和文本特征独立映射到同一维度之后，各自用四层transformer构成的图片特征编码器和文本特征编码器得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Tr ansformer进行高层次语义对齐，使得图片特征向量和文本特征向量映射到同一个公共空间，通过计算损失来优化；然后将图片特征和原始文本使用反事实推理方法进行处理，使用识别到的图像区域标签，与从原始文本中提取到的名词进行比较，为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵； S2、使用反事实推理构建实例级的正负样本，使模型能够关注视觉图片中物体的细节信息； S3，利用反事实生成图像级的正负样本，使模型能够关注图片全局场景信息； S4，使用反事实生成文本在语义级的反事实样本，构建语义级的对比学习，使模型能够跨模态语义关系； S5，融合上述过程，得到基于反事实推理的跨模态检索模型。 2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S1 的具体实现包括： S1.1：对训练数据中的每一张图片I以及其对应的文本表述E，提取其文本特征图像特征位置特征以及图片的对象区域标签这里 Dq， Dv代表文本特征和图像特征的维度， Ds代表图片标注出来的标签区域数量，即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。 Dn代表从图像中提取到的局部区域数量， Dp表示为局部区域的位置特征维度， Dl代表句子的长度；图像特征通过Faster ‑RCNN进行提取，得到36(即Dn＝36)个区域视觉特征，之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即Dv＝2048)，位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。 Dp为5。其中x1， y1， x2， y2分别是区域左上角坐标和区域右下角坐标， W， H分别表示图片的宽度和高度；文本特征T通过BERT提取，得到768维文本特征(即Dq＝768)， TF＝FCt(Bert(T))#(3) FCv和FCt表示两个独立的全连接层、 Bert表示Bert模型、表示将前后两个值在相同维度上连接起来， De＝1024；构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型；将图像特征和文本特征经过式(2)(3)处理之后得到的VF和TF输入创建的基本跨模态检索模型中，将得到的特征中对应[ CLS]标志位的特征向量作为最终的特征向量，建立三元组损失函数作为图像和文本对齐的损失函数：权　利　要　求　书 1/3 页 2 CN 115146100 A 2其中t， x表示为正样本对， t‑， x‑表示为负样本，即同一批次的其他文本特征和图像特征， α 为超参数， [a]+＝max(a， 0)， S1.2：提取图像区域标签S，与从原始文本中提取到的名词进行对齐，之后和需要进行掩盖的对象轮廓进行比对，将图像的所有局部特征区域形成的方框长宽各均匀分为14份，取交叉点共计196个点，然后通过统计落在对象轮廓内部的点的数量除以196来计算该图像区域特征对文本的重要系数，再将所有值连接起来构成系数矩阵如式(5)所示，其中Fi 值越小表示区域特征Vi越重要。 Pi表示区域i的位置特征，表示图片的对象区域标签， E表示原始文本。 mask(Pi， Ii， E) 表示统计区域 i落在重要区域内部的点的数量， Fi表示的第i行的值。 3.根据权利要求2所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S2 的具体实现包括： S2.1：构建实例级的对比学习：利用S1.2中得到的矩阵来判断图像局部特征Vii∈ Dn对当前文本特征的重要程度，将重要区域的特征(即在中对应的值不为1)连接起来构建正样本Oins+，将不重要区域的特征(即在中对应的值为1)连接起来作为反事实样本，即负样本 k表示实例级负样本个数； S2.2：将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本跨模态检索模型中，然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量 Vins+和以及T，使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐，设计I nfoNCE对比损失函数，具体表示如下：这里的exp(n)＝en、 T是原始文本特征， τ ＝0.15，为温度参数。 4.根据权利要求2所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S3 的具体实现包括：步骤S3.1：构建图像级的对比学习：利用S1.2中得到的来判断图像局部特征Vii∈ Dn对当前文本特征的重要程度，随机掩盖20 ％不重要的局部特征(在中对应的值为1) 来构建正样本Bimg+，从其余部分中随机选择m个图像作为负样本 m表示图像级负样本的个数；步骤S3.2：将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的跨模态检索模型中，然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量 Vimg+和以及T，使得跨模态检索模型学习细粒度的图片文本全局特征对齐，设计 InfoNCE对比损失函数，具体表示如下：权　利　要　求　书 2/3 页 3 CN 115146100 A 3

专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备

专利一种基于反事实推理的跨模态检索模型、方法及计算机设备