国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210680394.4 (22)申请日 2022.06.15 (71)申请人 茅台学院 地址 564507 贵州省遵义市南部新城 (72)发明人 刘赟 田鹏 李浪 沈仕巡 周克  冯华仲  (74)专利代理 机构 贵阳中新专利商标事务所 52100 专利代理师 胡绪东 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/732(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于跨模态异质图神经网络的视频问 答方法 (57)摘要 本发明公开了一种基于跨模态异质图神经 网络的视频问答方法, 该方法为: 将视频问答任 务中的信息分为视频帧、 视频剪辑和问题语句, 分别将它们提取为对应特征, 利用多头多跳注意 力对三种类型的特征进行跨模态交互; 基于跨模 态特征构建多流时空语义图, 图中的每个节点对 应于一个视频帧、 剪辑或问题单词; 在异质图上 利用图神经网络执行模态内和模态间的同步推 理, 生成局部推理向量; 基于多模态双线性池化 模型融合视频和问题信息, 实现整体的特征关联 并生成全局向量; 将局部和全局向量集成为一个 多模态的联合特征向量, 用于答案推导。 本发明 利用细粒度的关联信息, 并根据问题类型利用分 类或回归技术实现答案预测, 显著提高了视频问 答的准确性。 权利要求书2页 说明书5页 附图1页 CN 114969298 A 2022.08.30 CN 114969298 A 1.一种基于跨模态异质图神经网络的视频问答方法, 其特征在于: 该方法包括以下步 骤: A、 跨模态特征提取及交互: 对于视频信息, 利用不同的深度卷积神经网络分别将视频 帧和剪辑提取为视频 的外观和运动特征; 对于 问题语句, 利用预先训练的词向量将其表示 为问题语义特征; 在特征提取 的基础上, 利用多头多跳注意力模型对三种类型 的特征进行 跨模态交 互, 以捕捉 不同特征间的细粒度关系; B、 多流时空语义图推理: 基于跨模态特征构建多流时空语义图, 在异质图内, 进行模态 间的关系捕捉以实现模态对齐, 模态内的关系挖掘以学习视频及问题的空间、 时序和语义 信息, 利用图神经网络在多流异质图上对模态内和模态间的关系进行同步推理, 生成局部 推理向量; C、 视频和问题信息集成: 在视频的外观、 运动特征, 以及问题语义特征的基础上, 利用 双线性池化模型对三种类型 的特征进行整体的特征关联与集成, 并生成全局向量, 全局向 量是对视频和问题之间特 征关联与交 互的全局把握; D、 特征融合及答案预测: 融合局部推理向量和全局向量生成跨模态 的联合特征向量, 将联合特 征向量输入到根据问题类型设计的分类或回归 模块中, 实现问题答案的预测。 2.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 在步骤A中跨模态特征提取时, 对视频帧序列进行均匀采样, 利用残差神经网络提取帧 级的视频外观特征; 将视频均匀地切分成一系列的剪辑, 利用3D卷积神经网络提取视频的 运动特征; 另外, 利用预 先训练好的词向量模型将问题句表示 为问题语义特 征。 3.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤A中跨模态特征交互计算时, 对于三种类型特征中的任意一种, 分别计算它与另外 两种特征间的交互, 计算过程采用多跳的记忆内存网络进行细粒度的、 渐进式的特征关联 建模。 4.根据权利要求3所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤A中多头多跳注意力模型中, 注意力的计算采用多头方式, 特征提取模块中的视频 外观、 运动和问题语义的多模态的特征经不同的线性变换输送给不同头的多跳注意力, 以 进行多视角的特 征关联计算。 5.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中多流时空语义图构建过程中, 数据来源为特征交互后的视频外观、 运动和问题 语义特征, 异质图中的每个节 点对应于一个视频帧、 剪辑 或问题单词, 图边的构建方式是节 点之间的全连接网络, 每条边权值对应表示模态内和模态间的特 征关联值。 6.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中图神经网络是双层图卷积神经网络结构, 在进行图卷积操作之前, 先对异质图 上的每个节嵌入拼接位置特征, 节点的位置对应于该节点在原始视频帧序列、 视频剪辑序 列或问题单词序列上的顺序位置, 位置特 征利用不同频率的正弦和余弦函数进行编码。 7.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中时空语义图采用多流的形式, 构建每一流异质图的数据来源于多跳注意力的特 征交互输出, 在多流异质图上执行多次不同的图卷积计算, 并将多流卷积后的结果进行融 合以实现更有效的跨模态推理, 生成局部推理向量。权 利 要 求 书 1/2 页 2 CN 114969298 A 28.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤C中全局向量是将 视频的外观和运动特征按 元素结合, 再利用双 线性池化模型将其 结果与问题语义特征进行融合, 相比基于异质图推理的局部 向量, 全局向量是视频和问题 特征在整体上的融合, 能把握全局信息 。 9.根据权利要求7所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤D 中特征融合及答案预测是利用双线性池化模型融合全局向量和局部 向量生成跨 模态的联合特征向量, 该特征向量是视频和问题特征交互及推理的结果, 将其作为分类或 回归模型的输入进行答案预测。权 利 要 求 书 2/2 页 3 CN 114969298 A 3

.PDF文档 专利 一种基于跨模态异质图神经网络的视频问答方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨模态异质图神经网络的视频问答方法 第 1 页 专利 一种基于跨模态异质图神经网络的视频问答方法 第 2 页 专利 一种基于跨模态异质图神经网络的视频问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。