专利 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210716996.0 (22)申请日 2022.06.23 (71)申请人天津理工大学地址 300384 天津市西青区宾水西道391号 (72)发明人孙卓　张飞飞　徐常胜　 (74)专利代理机构南京智造力知识产权代理有限公司 32382 专利代理师王军丽 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/583(2019.01) G06F 40/268(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备 (57)摘要本发明公开了一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备，首先对原始图像进行预处理得到图像区域特征和图像中的文本信息即场景文本。将图像区域特征和图像描述文本输入特征学习模型中，学习图像与文本的映射关系。将图像描述文本和场景文本输入特征学习模型fastText中，学习图像描述文本和场景文本的映射关系。最终将上述两种映射关系进行融合得到针对场景文本的统一检索模型。本发明解决了现有跨模态检索模型在包含场景文本数据上准确率低的问题，能够有效地提高场景文本检索的准确率。权利要求书4页说明书7页附图1页 CN 115017266 A 2022.09.06 CN 115017266 A 1.一种基于文本检测和语义匹配的场景文本检索模型，其特征在于，该模型通过以下步骤得到： S1，提取图像的区域特征和图像描述文本的单词级别特征，通过多层感知机将两个特征映射到共同的语义空间，得到图像特征V和文本特征E； S2，利用余弦相似度计算两者的相似度，通过三元组损失函数对模型进行优化训练，最终得到跨模态检索相似度Sc； S3，提取出图像中的文本信息即场景文本，并使用fastText提取出场景文本的单词特征O； S4，利用StanfordCoreNlp对图像描述文本进行处理，挑选出符合语义要求的单词并通过fastText提取出图像描述文本的单词特征P； S5，针对文本特征的不同层级特征，分别使用单词、句子级别的特征进行相似度计算，并利用堆叠交叉注意力机制进行计算，使模型建模场景文本和图像描述文本之间的语义关系，将三个相似度通过加权得到最终的场景文本和图像描述文本的相似度Ssum； S6，融合S2和S5，得到一个基于文本检测和语义匹配的场景文本检索模型。 2.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型，其特征在于，所述S1的具体实现包括： S1‑1,给定图像I，使用预训练好的FasterRCNN检测图像中的n个感兴趣区域ri，并提取对应的区域特征fi；然后使用多层感知机将图像区域特征fi映射到共同的特征空间得到vi： vi＝MLPv(fi) 其中， MLPv表示对应于图像的多层感知机，得到的图像特征表示为 S1‑2，给定句子T，对于句子中的第i个单词，使用独热编码wi表示该单词在词汇表中的位置，使用映射矩阵We将wi映射到300维的向量中，表示为xi＝Wewi,i∈[1,m]，其中m表示句子中的单词个数，使用Bi ‑GRU将xi映射为单词特征； Bi ‑GRU包括一个向前的GRU，从w1向wm读取句子T，具体如下：和一个向后的GRU,从wm向w1读取句子T，具体如下：最终的单词特征ei通过将和取平均的方式进行融合，使得单词特征融合wi周围句子的上下文信息，表示为然后使用多层感知机将图像描述映射到共同的特征空间得到ei： ei＝MLPe(fi) 其中，M L Pe表示对应于图像的多层感知机，得到的文本特征表示为 3.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型，其特征在于，所述S2的具体实现包括：权　利　要　求　书 1/4 页 2 CN 115017266 A 2使用余弦相似度计算图像特征V和文本特征E的相似度，得到跨模态检索的相似度结果；使用图像聚合器和文本聚合器fvisual(·)和ftext(·)进行聚合，将图像特征V和文本特征E进行嵌入得到聚合后的特征α, β：通过余弦相似度计算图像I和图像描述T之间的相似度，用Sc(v,e)表示跨模态检索的相似度，表示为：使用三元组损失对S2的第一子模型进行训练：其中Δ是超参数， (v,e)表示数据集中的正样本对，表示v的最难负样本，表示t的最难负样本， [x]+≡max(0,x)，利用三元排序损失拉近正样本对之间的距离，其中， t ′和v′为中间变量。 4.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型，其特征在于，所述S3的具体实现包括： S3‑1,对于给定图像I，将图片输入Rosetta OCR图像文本提取系统，提取出图片中的所有OCR tokens,OCR tokens即从图片中识别出的单词；对于每张输入的图像，利用OCR提取出单词文本即场景文本； S3‑2，对提取出的场景文本进行预处理，首先对数据进行清洗，删除符号，单个字符等识别出的文本； S3‑3，将步骤S3 ‑2所得的场景文本进行词性分析和筛选，将场景文本送入 StanfordCoreNlp中进行语义分析，通过对数据集中的图像描述和Rosetta OCR场景文本进行数据分析，图像描述与场景文本有大量相同词性的单词，对应于StanfordCoreNlp中定义的词性标签，分别是NN(名词、普通、单数或大量)， NNS(名词，普通，复数)， NNP(名词，专有的，单数)， CD(数字，基数)， JJ(形容词或数词，序数)；对经过S3‑2预处理的场景文本进行词性筛选，挑选单词词性包含在上述五种词性的单词，最终挑选出k个场景文本用于后续任务；将最终得到的场景文本通过预训练的fastText模型提取出300维的特征向量， fastText得到的场景文本的单词特征表示为 5.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型，其特征在于，所述S4的具体实现包括： S4‑1，对图像描述文本即未处理的单词文本进行词性分析，将图像描述文本送入 StanfordCoreN lp中进行语义分析，获得每个单词对应的词性标签。 S4‑2，通过对数据集中的图像描述和Rosetta OCR场景文本进行数据分析，在图像描述文本上挑选出词性为NN， NNS， NNP， CD， JJ的图像描述单词；权　利　要　求　书 2/4 页 3 CN 115017266 A 3

专利 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备

专利一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备