专利 一种基于跨模态异质图神经网络的视频问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210680394.4 (22)申请日 2022.06.15 (71)申请人茅台学院地址 564507 贵州省遵义市南部新城 (72)发明人刘赟　田鹏　李浪　沈仕巡　周克　冯华仲　 (74)专利代理机构贵阳中新专利商标事务所 52100 专利代理师胡绪东 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/732(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于跨模态异质图神经网络的视频问答方法 (57)摘要本发明公开了一种基于跨模态异质图神经网络的视频问答方法，该方法为：将视频问答任务中的信息分为视频帧、视频剪辑和问题语句，分别将它们提取为对应特征，利用多头多跳注意力对三种类型的特征进行跨模态交互；基于跨模态特征构建多流时空语义图，图中的每个节点对应于一个视频帧、剪辑或问题单词；在异质图上利用图神经网络执行模态内和模态间的同步推理，生成局部推理向量；基于多模态双线性池化模型融合视频和问题信息，实现整体的特征关联并生成全局向量；将局部和全局向量集成为一个多模态的联合特征向量，用于答案推导。本发明利用细粒度的关联信息，并根据问题类型利用分类或回归技术实现答案预测，显著提高了视频问答的准确性。权利要求书2页说明书5页附图1页 CN 114969298 A 2022.08.30 CN 114969298 A 1.一种基于跨模态异质图神经网络的视频问答方法，其特征在于：该方法包括以下步骤： A、跨模态特征提取及交互：对于视频信息，利用不同的深度卷积神经网络分别将视频帧和剪辑提取为视频的外观和运动特征；对于问题语句，利用预先训练的词向量将其表示为问题语义特征；在特征提取的基础上，利用多头多跳注意力模型对三种类型的特征进行跨模态交互，以捕捉不同特征间的细粒度关系； B、多流时空语义图推理：基于跨模态特征构建多流时空语义图，在异质图内，进行模态间的关系捕捉以实现模态对齐，模态内的关系挖掘以学习视频及问题的空间、时序和语义信息，利用图神经网络在多流异质图上对模态内和模态间的关系进行同步推理，生成局部推理向量； C、视频和问题信息集成：在视频的外观、运动特征，以及问题语义特征的基础上，利用双线性池化模型对三种类型的特征进行整体的特征关联与集成，并生成全局向量，全局向量是对视频和问题之间特征关联与交互的全局把握； D、特征融合及答案预测：融合局部推理向量和全局向量生成跨模态的联合特征向量，将联合特征向量输入到根据问题类型设计的分类或回归模块中，实现问题答案的预测。 2.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：在步骤A中跨模态特征提取时，对视频帧序列进行均匀采样，利用残差神经网络提取帧级的视频外观特征；将视频均匀地切分成一系列的剪辑，利用3D卷积神经网络提取视频的运动特征；另外，利用预先训练好的词向量模型将问题句表示为问题语义特征。 3.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤A中跨模态特征交互计算时，对于三种类型特征中的任意一种，分别计算它与另外两种特征间的交互，计算过程采用多跳的记忆内存网络进行细粒度的、渐进式的特征关联建模。 4.根据权利要求3所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤A中多头多跳注意力模型中，注意力的计算采用多头方式，特征提取模块中的视频外观、运动和问题语义的多模态的特征经不同的线性变换输送给不同头的多跳注意力，以进行多视角的特征关联计算。 5.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤B中多流时空语义图构建过程中，数据来源为特征交互后的视频外观、运动和问题语义特征，异质图中的每个节点对应于一个视频帧、剪辑或问题单词，图边的构建方式是节点之间的全连接网络，每条边权值对应表示模态内和模态间的特征关联值。 6.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤B中图神经网络是双层图卷积神经网络结构，在进行图卷积操作之前，先对异质图上的每个节嵌入拼接位置特征，节点的位置对应于该节点在原始视频帧序列、视频剪辑序列或问题单词序列上的顺序位置，位置特征利用不同频率的正弦和余弦函数进行编码。 7.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤B中时空语义图采用多流的形式，构建每一流异质图的数据来源于多跳注意力的特征交互输出，在多流异质图上执行多次不同的图卷积计算，并将多流卷积后的结果进行融合以实现更有效的跨模态推理，生成局部推理向量。权　利　要　求　书 1/2 页 2 CN 114969298 A 28.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤C中全局向量是将视频的外观和运动特征按元素结合，再利用双线性池化模型将其结果与问题语义特征进行融合，相比基于异质图推理的局部向量，全局向量是视频和问题特征在整体上的融合，能把握全局信息。 9.根据权利要求7所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤D 中特征融合及答案预测是利用双线性池化模型融合全局向量和局部向量生成跨模态的联合特征向量，该特征向量是视频和问题特征交互及推理的结果，将其作为分类或回归模型的输入进行答案预测。权　利　要　求　书 2/2 页 3 CN 114969298 A 3

专利 一种基于跨模态异质图神经网络的视频问答方法

专利一种基于跨模态异质图神经网络的视频问答方法