(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210716568.8
(22)申请日 2022.06.23
(71)申请人 天津理工大 学
地址 300384 天津市西青区 宾水西道391号
(72)发明人 马泽伟 张飞飞 徐常胜
(74)专利代理 机构 南京智造力知识产权代理有
限公司 32382
专利代理师 王军丽
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 5/04(2006.01)
(54)发明名称
一种基于 反事实推理的跨模态检索模 型、 方
法及计算机设备
(57)摘要
本发明公开了一种基于反事实推理的跨模
态检索模型、 方法及计算机设备, 包括: 提取原始
图片和文本的特征, 使用反事实对比学习构建样
本的正负样本。 采用反事实方法分别生成实例
级、 图像级的正负样本, 使模型关注图片细节信
息及全局场景信息; 生成文本在语义级的反事实
样本, 构建语义级的对比学习, 实现跨模态语义
关系; 将上述部分融合得到跨模态检索模型并整
体训练。 本发 明将反事实推理的多级对比学习应
用在跨模态检索中, 构造文本特征和图片特征对
齐模块, 对生成反事实样本进行指导, 分别在实
例级、 图像级和语义级构建反事实对比样本, 通
过反事实对比学习, 缓解由于数据集的数据分布
不均导致的虚假问题, 提升模型的语义对齐能力
以及模型准确度。
权利要求书3页 说明书6页 附图2页
CN 115146100 A
2022.10.04
CN 115146100 A
1.一种基于反事实推理的跨模态检索模型, 其特 征在于, 该模型由以下步骤得到:
S1、 分别提取原始的图片特征和文本特征, 将得到的图片特征和文本特征独立映射到
同一维度之后, 各自用四层transformer构成的图片特征编码器和文本特征编码器得到特
征向量, 将得到的图片特征向量和文本特征向量使用一个两层Tr ansformer进行高层次语
义对齐, 使得图片特 征向量和文本特 征向量映射到同一个公共空间, 通过计算损失来优化;
然后将图片特征和原始文本使用反事实推理方法进行处理, 使用识别 到的图像区域标
签, 与从原始文本中提取到的名词进行比较, 为后续三种对比学习(实例级、 图像级、 语义
级)提供构造正负 样本的系数矩阵;
S2、 使用反事实推理构建实例级的正负样本, 使模型能够关注视觉图片中物体的细节
信息;
S3, 利用反事实生成图像级的正负 样本, 使模型能够关注图片全局场景信息;
S4, 使用反事实生成文本在语义级的反事实样本, 构建语义级的对比学习, 使模型能够
跨模态语义关系;
S5, 融合上述过程, 得到基于反事实推理的跨模态检索模型。
2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S1
的具体实现包括:
S1.1: 对训练数据中的每一张图片I以及其对应的文本表述E, 提取其文本特征
图像特征
位置特征
以及图片的对象区域标签
这里
Dq, Dv代表文本特征和图像特征的维度, Ds代表图片标注出来的标签区域数量, 即这张图片
所有被识别出来的对象的轮廓区域(不一定是矩形)。 Dn代表从图像中提取到的局部区域数
量, Dp表示为局部区域的位置特 征维度, Dl代表句子的长度;
图像特征通过Faster ‑RCNN进行提取, 得到36(即Dn=36)个区域视觉特征, 之后将其连
接在一起作为图像特征V。 每个区域视觉特征的维度为2048(即Dv=2048), 位置特征P包含
每个特征区域的左上角坐标和右下角坐标以及区域的面积。 Dp为5。
其中x1, y1, x2, y2分别是区域左上角坐标和区域右下角坐标, W, H分别表示图片的宽度和
高度;
文本特征T通过BERT提取, 得到768维文本特 征(即Dq=768),
TF=FCt(Bert(T))#(3)
FCv和FCt表示两个独立的全连接层、 Bert表示Bert模型、
表示将前后两个值在相同维
度上连接起来,
De=1024;
构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、 用
来进行高级语义特 征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型;
将图像特征和文本特征经过式(2)(3)处理之后得到的VF和TF输入创建的基本跨模态检
索模型中, 将得到的特征中对应[ CLS]标志 位的特征向量作为最 终的特征向量, 建立三元 组
损失函数作为图像和文本对齐的损失函数:权 利 要 求 书 1/3 页
2
CN 115146100 A
2其中t, x表示为正样本对, t‑, x‑表示为负样本, 即同一批次的其他文本特征和图像特
征, α 为超参数, [a]+=max(a, 0),
S1.2: 提取图像区域标签S, 与从原始文本中提取到的名词进行对齐, 之后和需要进行
掩盖的对象轮廓进行比对, 将图像的所有局部特征区域形成的方框长宽各均匀分为14份,
取交叉点共计196个点, 然后通过统计落在 对象轮廓内部的点的数量除以196来计算该图像
区域特征对文本的重要系数, 再将所有值连接起来构成系数矩阵
如式(5)所示, 其中Fi
值越小表示区域特 征Vi越重要。
Pi表示区域i的位置特征,
表示图片的对象区域标签, E表示原始文本。 mask(Pi, Ii, E)
表示统计区域 i落在重要区域内部的点的数量, Fi表示
的第i行的值。
3.根据权利要求2所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S2
的具体实现包括:
S2.1: 构建实例级的对比学习: 利用S1.2中得到的矩阵
来判断图像局部特征Vii∈
Dn对当前文本特征的重要程度, 将重要区域的特征(即在
中对应的值不为1)连接起来
构建正样本Oins+, 将不重要区域的特征(即在
中对应的值为1)连接起来作 为反事实样
本, 即负样本
k表示实例级负 样本个数;
S2.2: 将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本跨
模态检索模型中, 然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量
Vins+和
以及T, 使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特
征对齐, 设计I nfoNCE对比损失函数, 具体表示如下:
这里的exp(n)=en、 T是原始文本特 征, τ =0.15, 为温度参数。
4.根据权利要求2所述的一种基于反事实推理的跨模态检索模型, 其特征在于, 所述S3
的具体实现包括:
步骤S3.1: 构建图像级的对比学习: 利用S1.2中得到的
来判断图像局部特征Vii∈
Dn对当前文本特征的重要程度, 随机掩盖20 %不重要的局部特征(在
中对应的值为1)
来构建正样本Bimg+, 从其余部分中随机选择m个图像作 为负样本
m表示图像级负
样本的个数;
步骤S3.2: 将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的跨
模态检索模型中, 然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量
Vimg+和
以及T, 使得跨模态检索模型学习细粒度的图片文本全局特征对齐, 设计
InfoNCE对比损失函数, 具体表示如下:权 利 要 求 书 2/3 页
3
CN 115146100 A
3
专利 一种基于反事实推理的跨模态检索模型、方法及计算机设备
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:32上传分享