国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210680394.4 (22)申请日 2022.06.15 (71)申请人 茅台学院 地址 564507 贵州省遵义市南部新城 (72)发明人 刘赟 田鹏 李浪 沈仕巡 周克 冯华仲 (74)专利代理 机构 贵阳中新专利商标事务所 52100 专利代理师 胡绪东 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/732(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于跨模态异质图神经网络的视频问 答方法 (57)摘要 本发明公开了一种基于跨模态异质图神经 网络的视频问答方法, 该方法为: 将视频问答任 务中的信息分为视频帧、 视频剪辑和问题语句, 分别将它们提取为对应特征, 利用多头多跳注意 力对三种类型的特征进行跨模态交互; 基于跨模 态特征构建多流时空语义图, 图中的每个节点对 应于一个视频帧、 剪辑或问题单词; 在异质图上 利用图神经网络执行模态内和模态间的同步推 理, 生成局部推理向量; 基于多模态双线性池化 模型融合视频和问题信息, 实现整体的特征关联 并生成全局向量; 将局部和全局向量集成为一个 多模态的联合特征向量, 用于答案推导。 本发明 利用细粒度的关联信息, 并根据问题类型利用分 类或回归技术实现答案预测, 显著提高了视频问 答的准确性。 权利要求书2页 说明书5页 附图1页 CN 114969298 A 2022.08.30 CN 114969298 A 1.一种基于跨模态异质图神经网络的视频问答方法, 其特征在于: 该方法包括以下步 骤: A、 跨模态特征提取及交互: 对于视频信息, 利用不同的深度卷积神经网络分别将视频 帧和剪辑提取为视频 的外观和运动特征; 对于 问题语句, 利用预先训练的词向量将其表示 为问题语义特征; 在特征提取 的基础上, 利用多头多跳注意力模型对三种类型 的特征进行 跨模态交 互, 以捕捉 不同特征间的细粒度关系; B、 多流时空语义图推理: 基于跨模态特征构建多流时空语义图, 在异质图内, 进行模态 间的关系捕捉以实现模态对齐, 模态内的关系挖掘以学习视频及问题的空间、 时序和语义 信息, 利用图神经网络在多流异质图上对模态内和模态间的关系进行同步推理, 生成局部 推理向量; C、 视频和问题信息集成: 在视频的外观、 运动特征, 以及问题语义特征的基础上, 利用 双线性池化模型对三种类型 的特征进行整体的特征关联与集成, 并生成全局向量, 全局向 量是对视频和问题之间特 征关联与交 互的全局把握; D、 特征融合及答案预测: 融合局部推理向量和全局向量生成跨模态 的联合特征向量, 将联合特 征向量输入到根据问题类型设计的分类或回归 模块中, 实现问题答案的预测。 2.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 在步骤A中跨模态特征提取时, 对视频帧序列进行均匀采样, 利用残差神经网络提取帧 级的视频外观特征; 将视频均匀地切分成一系列的剪辑, 利用3D卷积神经网络提取视频的 运动特征; 另外, 利用预 先训练好的词向量模型将问题句表示 为问题语义特 征。 3.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤A中跨模态特征交互计算时, 对于三种类型特征中的任意一种, 分别计算它与另外 两种特征间的交互, 计算过程采用多跳的记忆内存网络进行细粒度的、 渐进式的特征关联 建模。 4.根据权利要求3所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤A中多头多跳注意力模型中, 注意力的计算采用多头方式, 特征提取模块中的视频 外观、 运动和问题语义的多模态的特征经不同的线性变换输送给不同头的多跳注意力, 以 进行多视角的特 征关联计算。 5.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中多流时空语义图构建过程中, 数据来源为特征交互后的视频外观、 运动和问题 语义特征, 异质图中的每个节 点对应于一个视频帧、 剪辑 或问题单词, 图边的构建方式是节 点之间的全连接网络, 每条边权值对应表示模态内和模态间的特 征关联值。 6.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中图神经网络是双层图卷积神经网络结构, 在进行图卷积操作之前, 先对异质图 上的每个节嵌入拼接位置特征, 节点的位置对应于该节点在原始视频帧序列、 视频剪辑序 列或问题单词序列上的顺序位置, 位置特 征利用不同频率的正弦和余弦函数进行编码。 7.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤B中时空语义图采用多流的形式, 构建每一流异质图的数据来源于多跳注意力的特 征交互输出, 在多流异质图上执行多次不同的图卷积计算, 并将多流卷积后的结果进行融 合以实现更有效的跨模态推理, 生成局部推理向量。权 利 要 求 书 1/2 页 2 CN 114969298 A 28.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤C中全局向量是将 视频的外观和运动特征按 元素结合, 再利用双 线性池化模型将其 结果与问题语义特征进行融合, 相比基于异质图推理的局部 向量, 全局向量是视频和问题 特征在整体上的融合, 能把握全局信息 。 9.根据权利要求7所述的一种基于跨模态异质图神经网络的视频问答方法, 其特征在 于: 步骤D 中特征融合及答案预测是利用双线性池化模型融合全局向量和局部 向量生成跨 模态的联合特征向量, 该特征向量是视频和问题特征交互及推理的结果, 将其作为分类或 回归模型的输入进行答案预测。权 利 要 求 书 2/2 页 3 CN 114969298 A 3
专利 一种基于跨模态异质图神经网络的视频问答方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:40
上传分享
举报
下载
原文档
(471.9 KB)
分享
友情链接
GB-T 31958-2015 薄膜晶体管液晶显示器用基板玻璃.pdf
中兴 通讯数据中心液冷技术白皮书 2022 .pdf
DB51-T 2621-2019 机关事务信息化建设指南 四川省.pdf
专利 一种基于神经网络模型及遗传算法的温控方法及装置.PDF
GB-T 25808-2021 硫化黑2BR、3B 200%.pdf
SC-T 8012-2011 渔业船舶无线电通信、航行及信号设备配备要求.pdf
GB-T 29072-2012 航天器研制技术流程编写规则.pdf
T-ACEF 109—2023 公民绿色低碳行为温室气体减排量化指南 行:混合动力汽车出行.pdf
GB-T 22309-2023 道路车辆 制动衬片 盘式制动块总成和鼓式制动蹄总成剪切强度试验方法.pdf
T-GHDQ 106—2022 车辆远程升级信息安全测试规范.pdf
GB-T 42012-2022 信息安全技术 即时通信服务数据安全要求.pdf
《信息安全技术 基于信息流的关键信息基础设施边界确定方法》【2019.4.21】.pdf
绿盟 2020 数据安全白皮书2.0.pdf
GB-T 36950-2018 信息安全技术 智能卡安全技术要求(EAL4+).pdf
ISOIEC 30111-2019.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
T-CEC 672—2022 变压器油中溶解气体在线监测装置现场校验器技术条件.pdf
DB52-T 1741-2023 快递绿色包装使用评价规范 贵州省.pdf
GB 12319-2022 中国海图图式.pdf
GB-T 32286.1-2015 软磁合金 第1部分:铁镍合金.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(471.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。