专利 一种基于额外语义空间的图像描述生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210756204.2 (22)申请日 2022.06.29 (71)申请人中国人民解放军火箭军工程大学地址 710025 陕西省西安市灞桥区同心路2 号 (72)发明人朱晨豪　叶霞　陆琪多　杨章平　罗承天　徐翰涛　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师杜阳阳 (51)Int.Cl. G06V 30/262(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称一种基于额外语义空间的图像描述生成方法及系统 (57)摘要本发明公开了一种基于额外语义空间的图像描述生成方法及系统，涉及图像描述生成技术领域，方法包括：按照实体对目标图像进行划分，得到多个实体图像向量；将每个实体图像向量输入到训练好的区域解码器中，得到对应的语义信息向量；将每个实体图像向量和对应的语义信息向量输入到语义空间解码器中，得到目标图像的描述。和传统的图像描述生成方法相比，本发明根据待测试的图像获取多个待测试的图像向量和多个相应的语义信息向量，从而得到描述，提高了生成描述的准确性。权利要求书2页说明书5页附图2页 CN 115131798 A 2022.09.30 CN 115131798 A 1.一种基于额外语义空间的图像描述生成方法，其特征在于，所述方法包括：按照实体对目标图像进行划分，得到多个实体图像向量；将每个实体图像向量输入到训练好的区域解码器中，得到对应的语义信息向量；将每个实体图像向量和对应的语义信息向量输入到语义空间解码器中，得到所述目标图像的描述。 2.根据权利要求1所述的基于额外语义空间的图像描述生成方法，其特征在于，所述按照实体对目标图像进行划分，得到多个实体图像向量，具体包括：使用Fast ‑RCNN算法对目标图像进行目标检测，得到多个目标实体；将每个目标实体输入到图像编码器中，得到对应的实体图像向量。 3.根据权利要求1所述的基于额外语义空间的图像描述生成方法，其特征在于，所述训练后的区域解码器的确定方法为：获取训练图像文本向量对；所述训练图像文本向量对包括：多个训练图像向量和对应的训练语义信息向量；将所述训练图像文本向量对输入到区域解码器中，根据交叉熵损失函数和强化学习方法获得所述训练好的区域解码器。 4.根据权利要求1所述的基于额外语义空间的图像描述生成方法，其特征在于，所述将每个实体图像向量和对应的语义信息向量输入到语义空间解码器中，得到所述目标图像的描述，具体包括：将每个实体图像向量对应的语义信息向量调整到固定长度，并将每个实体图像向量和对应的调整到固定长度的语义信息向量输入到语义空间解码器中，得到所述目标图像的描述。 5.根据权利要求3所述的基于额外语义空间的图像描述生成方法，其特征在于，所述获取训练图像文本向量对，具体包括：使用Fast ‑RCNN算法对训练图像进行目标检测，得到训练图像实体；将所述训练图像实体输入到图像编码器中，得到多个训练图像向量；将与所述训练图像对应的训练文本输入到文本编码器中，得到多个训练语义信息向量；利用相似度得分矩阵来匹配训练图像向量和训练语义信息向量得到所述训练图像文本向量对。 6.一种基于额外语义空间的图像描述生成系统，其特征在于，包括：目标图像划分模块，用于按照实体对目标图像进行划分，得到多个实体图像向量；语义信息向量获取模块，用于将每个实体图像向量输入到训练好的区域解码器中，得到对应的语义信息向量；图像描述生成模块，用于将每个实体图像向量和对应的语义信息向量输入到语义空间解码器中，得到所述目标图像的描述。 7.根据权利要求6所述的基于额外语义空间的图像描述生成系统，其特征在于，所述目标图像划分模块，具体包括：目标检测子模块，用于使用Fast ‑RCNN算法对目标图像进行目标检测，得到多个目标实体；权　利　要　求　书 1/2 页 2 CN 115131798 A 2实体图像向量生成子模块，用于将每个目标实体输入到图像编码器中，得到对应的实体图像向量。 8.根据权利要求6所述的基于额外语义空间的图像描述生成系统，其特征在于，所述语义信息向量获取模块包括：区域解码器确定子模块；所述区域解码器确定子模块具体包括为：训练图像文本向量对获取单元，用于获取训练图像文本向量对；所述训练图像文本向量对包括：多个训练图像向量和对应的训练语义信息向量；区域解码器确定单元，用于将所述训练图像文本向量对输入到区域解码器中，根据交叉熵损失函数和强化学习方法获得所述训练好的区域解码器。 9.根据权利要求6所述的基于额外语义空间的图像描述生成系统，其特征在于，所述图像描述生成模块，具体包括：图像描述生成单元，用于将每个实体图像向量对应的语义信息向量调整到固定长度，并将每个实体图像向量和对应的调整到固定长度的语义信息向量输入到语义空间解码器中，得到所述目标图像的描述。 10.根据权利要求8所述的基于额外语义空间的图像描述生成系统，其特征在于，所述训练图像文本向量对获取单元，具体包括：训练图像实体获取子单元，用于使用Fast ‑RCNN算法对训练图像进行目标检测，得到训练图像实体；训练图像向量获取子单元，用于将所述训练图像实体输入到图像编码器中，得到多个训练图像向量；训练语义信息向量获取子单元，用于将与所述训练图像对应的训练文本输入到文本编码器中，得到多个训练语义信息向量；训练图像文本向量对获取子单元，用于利用相似度得分矩阵来匹配训练图像向量和训练语义信息向量得到所述训练图像文本向量对。权　利　要　求　书 2/2 页 3 CN 115131798 A 3

专利 一种基于额外语义空间的图像描述生成方法及系统

专利一种基于额外语义空间的图像描述生成方法及系统