国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210716568.8 (22)申请日 2022.06.23 (71)申请人 天津理工大 学 地址 300384 天津市西青区 宾水西道391号 (72)发明人 马泽伟 张飞飞 徐常胜  (74)专利代理 机构 南京智造力知识产权代理有 限公司 32382 专利代理师 王军丽 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称 一种基于 反事实推理的跨模态检索模 型、 方 法及计算机设备 (57)摘要 本发明公开了一种基于反事实推理的跨模 态检索模型、 方法及计算机设备, 包括: 提取原始 图片和文本的特征, 使用反事实对比学习构建样 本的正负样本。 采用反事实方法分别生成实例 级、 图像级的正负样本, 使模型关注图片细节信 息及全局场景信息; 生成文本在语义级的反事实 样本, 构建语义级的对比学习, 实现跨模态语义 关系; 将上述部分融合得到跨模态检索模型并整 体训练。 本发 明将反事实推理的多级对比学习应 用在跨模态检索中, 构造文本特征和图片特征对 齐模块, 对生成反事实样本进行指导, 分别在实 例级、 图像级和语义级构建反事实对比样本, 通 过反事实对比学习, 缓解由于数据集的数据分布 不均导致的虚假问题, 提升模型的语义对齐能力 以及模型准确度。 权利要求书3页 说明书6页 附图2页 CN 115146100 A 2022.10.04 CN 115146100 A 1.一种基于反事实推理的跨模态检索模型, 其特 征在于, 该模型由以下步骤得到: S1、 分别提取原始的图片特征和文本特征, 将得到的图片特征和文本特征独立映射到 同一维度之后, 各自用四层transformer构成的图片特征编码器和文本特征编码器得到特 征向量, 将得到的图片特征向量和文本特征向量使用一个两层Tr ansformer进行高层次语 义对齐, 使得图片特 征向量和文本特 征向量映射到同一个公共空间, 通过计算损失来优化; 然后将图片特征和原始文本使用反事实推理方法进行处理, 使用识别 到的图像区域标 签, 与从原始文本中提取到的名词进行比较, 为后续三种对比学习(实例级、 图像级、 语义 级)提供构造正负 样本的系数矩阵; S2、 使用反事实推理构建实例级的正负样本, 使模型能够关注视觉图片中物体的细节 信息; S3, 利用反事实生成图像级的正负 样本, 使模型能够关注图片全局场景信息; S4, 使用反事实生成文本在语义级的反事实样本, 构建语义级的对比学习, 使模型能够 跨模态语义关系; S5, 融合上述过程, 得到基于反事实推理的跨模态检索模型。 2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S1 的具体实现包括: S1.1: 对训练数据中的每一张图片I以及其对应的文本表述E, 提取其文本特征 图像特征 位置特征 以及图片的对象区域标签 这里 Dq, Dv代表文本特征和图像特征的维度, Ds代表图片标注出来的标签区域数量, 即这张图片 所有被识别出来的对象的轮廓区域(不一定是矩形)。 Dn代表从图像中提取到的局部区域数 量, Dp表示为局部区域的位置特 征维度, Dl代表句子的长度; 图像特征通过Faster ‑RCNN进行提取, 得到36(即Dn=36)个区域视觉特征, 之后将其连 接在一起作为图像特征V。 每个区域视觉特征的维度为2048(即Dv=2048), 位置特征P包含 每个特征区域的左上角坐标和右下角坐标以及区域的面积。 Dp为5。 其中x1, y1, x2, y2分别是区域左上角坐标和区域右下角坐标, W, H分别表示图片的宽度和 高度; 文本特征T通过BERT提取, 得到768维文本特 征(即Dq=768), TF=FCt(Bert(T))#(3) FCv和FCt表示两个独立的全连接层、 Bert表示Bert模型、 表示将前后两个值在相同维 度上连接起来, De=1024; 构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、 用 来进行高级语义特 征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型; 将图像特征和文本特征经过式(2)(3)处理之后得到的VF和TF输入创建的基本跨模态检 索模型中, 将得到的特征中对应[ CLS]标志 位的特征向量作为最 终的特征向量, 建立三元 组 损失函数作为图像和文本对齐的损失函数:权 利 要 求 书 1/3 页 2 CN 115146100 A 2其中t, x表示为正样本对, t‑, x‑表示为负样本, 即同一批次的其他文本特征和图像特 征, α 为超参数, [a]+=max(a, 0), S1.2: 提取图像区域标签S, 与从原始文本中提取到的名词进行对齐, 之后和需要进行 掩盖的对象轮廓进行比对, 将图像的所有局部特征区域形成的方框长宽各均匀分为14份, 取交叉点共计196个点, 然后通过统计落在 对象轮廓内部的点的数量除以196来计算该图像 区域特征对文本的重要系数, 再将所有值连接起来构成系数矩阵 如式(5)所示, 其中Fi 值越小表示区域特 征Vi越重要。 Pi表示区域i的位置特征, 表示图片的对象区域标签, E表示原始文本。 mask(Pi, Ii, E) 表示统计区域 i落在重要区域内部的点的数量, Fi表示 的第i行的值。 3.根据权利要求2所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S2 的具体实现包括: S2.1: 构建实例级的对比学习: 利用S1.2中得到的矩阵 来判断图像局部特征Vii∈ Dn对当前文本特征的重要程度, 将重要区域的特征(即在 中对应的值不为1)连接起来 构建正样本Oins+, 将不重要区域的特征(即在 中对应的值为1)连接起来作 为反事实样 本, 即负样本 k表示实例级负 样本个数; S2.2: 将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本跨 模态检索模型中, 然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量 Vins+和 以及T, 使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特 征对齐, 设计I nfoNCE对比损失函数, 具体表示如下: 这里的exp(n)=en、 T是原始文本特 征, τ =0.15, 为温度参数。 4.根据权利要求2所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S3 的具体实现包括: 步骤S3.1: 构建图像级的对比学习: 利用S1.2中得到的 来判断图像局部特征Vii∈ Dn对当前文本特征的重要程度, 随机掩盖20 %不重要的局部特征(在 中对应的值为1) 来构建正样本Bimg+, 从其余部分中随机选择m个图像作 为负样本 m表示图像级负 样本的个数; 步骤S3.2: 将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的跨 模态检索模型中, 然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量 Vimg+和 以及T, 使得跨模态检索模型学习细粒度的图片文本全局特征对齐, 设计 InfoNCE对比损失函数, 具体表示如下:权 利 要 求 书 2/3 页 3 CN 115146100 A 3

.PDF文档 专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备 第 1 页 专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备 第 2 页 专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。