(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211155011.8
(22)申请日 2022.09.21
(71)申请人 中山大学深圳研究院
地址 518000 广东省深圳市南 山区科技园
南区粤海街道粤兴四道1号中山大学
深圳产学研大楼15层
申请人 中山大学
(72)发明人 苏航 周凡 刘海亮 陈小燕
汤武惊 张怡
(74)专利代理 机构 深圳中一联合知识产权代理
有限公司 4 4414
专利代理师 任敏
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于时空关系的行为识别方法及电子
设备
(57)摘要
本申请适用于设备管 理技术领域, 提供了一
种基于时空关系的行为识别方法及电子设备, 方
法包括: 接收待识别的目标视频数据; 将所述目
标视频数据导入 预设的帧间动作提取网络, 得到
帧间动作特征数据; 将所述帧间动作特征数据导
入特征提取网络, 输出所述目标视频数据对应的
稀疏特征数据; 所述特征提取网络是通过选择权
重对池化融合网络内的各个卷积核进行稀疏性
约束处理后生成的; 将所述目标视频数据导入上
下文注意力网络, 确定所述目标视频数据中目标
对象的步态行为数据; 根据所述步态行为数据以
及所述稀 疏特征数据, 得到所述目标对象的行为
类别。 采用上述方法能够大大降低了视频数据在
进行行为识别过程中的计算 成本, 继而提高了运
算效率。
权利要求书3页 说明书20页 附图10页
CN 115457660 A
2022.12.09
CN 115457660 A
1.一种基于时空关系的行为识别方法, 其特 征在于, 包括:
接收待识别的目标视频 数据;
将所述目标视频数据导入预设的帧间动作提取网络, 得到帧间动作特征数据; 所述帧
间动作特 征数据用于确定所述目标视频 数据中相邻的视频图像帧之间的动作特 征信息;
将所述帧间动作特征数据导入特征提取网络, 输出所述目标视频数据对应的稀疏特征
数据; 所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进 行稀疏性约束
处理后生成的;
将所述目标视频数据导入上下文注意力网络, 确定所述目标视频数据中目标对象的步
态行为数据; 所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与 环境对
象之间的相互位置关系;
根据所述 步态行为数据以及所述稀疏 特征数据, 得到所述目标对象的行为类别。
2.根据权利要求1所述的行为识别方法, 其特征在于, 在所述将所述帧间动作 特征数据
导入特征提取网络, 输出 所述目标视频 数据对应的稀疏 特征数据之前, 还 包括:
为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重, 得到待
校正网络;
将预设的多个训练特征数据输入至所述待校正网络生成第 一训练结果, 以及将多个所
述训练特 征数据输入至所述池化融合网络生成第二训练结果;
根据所述第一训练结果以及所述第二训练结果, 确定所述待校正网络的损失值;
若所述损失值小于或等于所述损失阈值, 则将配置所述选择权重的所述待识别卷积识
别为冗余卷积核;
若所述损失值大于预设的损失阈值, 则将配置所述选择权重的所述待识别卷积核识别
为必要卷积核;
返回执行所述为所述池化融合网络 内至少一个待识别卷积核配置数值为0的所述选择
权重, 得到待校正网络的操作, 直到所述池化融合网络内的所有所述待识别卷积核已分类
完毕;
基于所有所述必要卷积核生成所述特 征提取网络 。
3.根据权利要求2所述的行为识别方法, 其特征在于, 所述特征训练数据关联有基准动
作标签; 基于所述特 征训练数据生成的所述特 征提取网络关联有所述基准动作标签;
在所述将所述帧间动作特征数据导入特征提取网络, 输出所述目标视频数据对应的稀
疏特征数据之前, 还 包括:
基于所述帧间动作数据确定多个候选动作标签;
根据多个所述候选动作 标签以及各个候选提取网络对应的基准动作 标签, 分别计算各
个候选提取网络之间的匹配度;
选取所述匹配度最高的所述 候选提取网络作为所述特 征提取网络 。
4.根据权利要求1所述的行为识别方法, 其特征在于, 所述将所述目标视频数据导入预
设的帧间动作提取网络, 得到帧间动作特 征数据, 包括:
确定所述目标视频 数据内任意两个连续的视频图像帧的图像张量;
根据所述目标对象在所述视频图像帧的关键位置, 确定多个特征点坐标; 所述特征点
坐标是根据所述目标对象的步态行为确定的;权 利 要 求 书 1/3 页
2
CN 115457660 A
2在所述图像张量中确定各个特征点坐标的张量表达, 并基于所有所述特征点的坐标表
达生成所述目标对象在所述视频图像帧中的特 征向量;
根据所述任意两个连续的视频图像帧的所述特征向量, 构建位移相关矩阵; 所述位移
相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的
位移相关 分数;
根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的
最大位移 距离, 并基于所有所述 最大位移 距离确定所述目标对象的位移 矩阵;
将所述位移矩阵导入到预设的特征变换模型, 生成所述任意两个连续的视频图像帧的
动作特征子数据;
基于所有所述视频图像帧的所述动作特 征子数据得到所述帧间动作特 征数据。
5.根据权利要求1 ‑4任一项所述的行为识别方法, 其特征在于, 在所述接收待识别的目
标视频数据之前, 还 包括:
获取用于对行为识别模块进行训练 的样本视频数据; 所述行为识别模块包括所述帧间
动作提取网络、 所述特 征提取网络以及所述上 下文注意力网络;
根据所述样本视频数据生成正样本数据以及负样本数据; 所述正样本数据是对所述样
本视频数据中的背景信息进行干扰处理后得到的; 所述负样本数据是对所述样本视频数据
中的样本 视频帧的帧序列进行干扰处 理后得到的;
通过所述正样本数据生成第 一空间信 息以及第 一光流信 息, 以及通过所述负样本数据
生成第二空间信息以及第二 光流信息;
根据所述第一空间信息以及所述第二空间信息得到空间增强信息;
根据所述第二 光流信息以及所述第一 光流信息得到光 流增强信息;
将所述空间增强信 息以及所述光流增强信 息导入所述行为识别模块, 得到所述样本视
频数据的训练识别结果;
基于所有所述样本视频数据的所述训练结果对初始识别模块内的位置学习参量进行
预训练, 得到所述行为识别模块。
6.根据权利要求5所述的行为识别方法, 其特征在于, 所述根据 所述样本视频数据生成
正样本数据以及负 样本数据, 包括:
根据预设的动作时间时长, 将所述样本视频数据划分为多个视频段; 每个所述视频段
的段落时长不大于所述动作时间时长;
根据预设的乱序处 理算法, 分别更新各个所述视频 段内的所述样本 视频帧的帧序号;
基于更新后的帧序号对各个所述样本 视频帧进行封装, 得到所述负 样本数据。
7.根据权利要求1 ‑4任一项所述的行为识别方法, 其特征在于, 所述将所述目标视频数
据导入上 下文注意力网络, 确定所述目标视频 数据中目标对象的步态行为数据, 还 包括:
确定所述目标视频 数据的各个视频图像帧内的目标对象以及至少一个环境对象;
基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第 一位置坐标, 确定
第一上下文特征; 所述关键特 征点是与所述目标对象的步态相关的人体关键点;
基于各个所述视频帧中所述目标对象与 所述环境对象之间的相对位置关系, 确定第 二
上下文特征;
将所述第一上下文特征以及所述第 二上下文特征导入所述上下文注意力网络, 生成所权 利 要 求 书 2/3 页
3
CN 115457660 A
3
专利 一种基于时空关系的行为识别方法及电子设备
文档预览
中文文档
34 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:55:55上传分享