专利 一种基于时空关系的行为识别方法及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211155011.8 (22)申请日 2022.09.21 (71)申请人中山大学深圳研究院地址 518000 广东省深圳市南山区科技园南区粤海街道粤兴四道1号中山大学深圳产学研大楼15层申请人中山大学 (72)发明人苏航　周凡　刘海亮　陈小燕　汤武惊　张怡　 (74)专利代理机构深圳中一联合知识产权代理有限公司 4 4414 专利代理师任敏 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于时空关系的行为识别方法及电子设备 (57)摘要本申请适用于设备管理技术领域，提供了一种基于时空关系的行为识别方法及电子设备，方法包括：接收待识别的目标视频数据；将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的；将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；根据所述步态行为数据以及所述稀疏特征数据，得到所述目标对象的行为类别。采用上述方法能够大大降低了视频数据在进行行为识别过程中的计算成本，继而提高了运算效率。权利要求书3页说明书20页附图10页 CN 115457660 A 2022.12.09 CN 115457660 A 1.一种基于时空关系的行为识别方法，其特征在于，包括：接收待识别的目标视频数据；将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的；将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；根据所述步态行为数据以及所述稀疏特征数据，得到所述目标对象的行为类别。 2.根据权利要求1所述的行为识别方法，其特征在于，在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络；将预设的多个训练特征数据输入至所述待校正网络生成第一训练结果，以及将多个所述训练特征数据输入至所述池化融合网络生成第二训练结果；根据所述第一训练结果以及所述第二训练结果，确定所述待校正网络的损失值；若所述损失值小于或等于所述损失阈值，则将配置所述选择权重的所述待识别卷积识别为冗余卷积核；若所述损失值大于预设的损失阈值，则将配置所述选择权重的所述待识别卷积核识别为必要卷积核；返回执行所述为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络的操作，直到所述池化融合网络内的所有所述待识别卷积核已分类完毕；基于所有所述必要卷积核生成所述特征提取网络。 3.根据权利要求2所述的行为识别方法，其特征在于，所述特征训练数据关联有基准动作标签；基于所述特征训练数据生成的所述特征提取网络关联有所述基准动作标签；在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：基于所述帧间动作数据确定多个候选动作标签；根据多个所述候选动作标签以及各个候选提取网络对应的基准动作标签，分别计算各个候选提取网络之间的匹配度；选取所述匹配度最高的所述候选提取网络作为所述特征提取网络。 4.根据权利要求1所述的行为识别方法，其特征在于，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；权　利　要　求　书 1/3 页 2 CN 115457660 A 2在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。 5.根据权利要求1 ‑4任一项所述的行为识别方法，其特征在于，在所述接收待识别的目标视频数据之前，还包括：获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述特征提取网络以及所述上下文注意力网络；根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及第二光流信息；根据所述第一空间信息以及所述第二空间信息得到空间增强信息；根据所述第二光流信息以及所述第一光流信息得到光流增强信息；将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；基于所有所述样本视频数据的所述训练结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。 6.根据权利要求5所述的行为识别方法，其特征在于，所述根据所述样本视频数据生成正样本数据以及负样本数据，包括：根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长；根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号；基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。 7.根据权利要求1 ‑4任一项所述的行为识别方法，其特征在于，所述将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据，还包括：确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象；基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点；基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征；将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所权　利　要　求　书 2/3 页 3 CN 115457660 A 3

专利 一种基于时空关系的行为识别方法及电子设备

专利一种基于时空关系的行为识别方法及电子设备