(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211188477.8
(22)申请日 2022.09.28
(71)申请人 西南科技大 学
地址 621010 四川省绵阳市青龙 大道中段
59号
(72)发明人 张红英 叶子勋
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/26(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种融合注意力机制的口罩遮挡人脸检测
与识别方法
(57)摘要
本发明给出一种融合注意力机制的口罩遮
挡人脸检测与识别方法, 首先, 该网络改进了
Swin Transformer用于人脸特征的提取; 其次,
提出了一种人脸器官注意力机制FOA, 使模型聚
焦于未被口罩遮挡的人脸器官; 然后, 针对当前
口罩遮挡人脸数据集不充分的问题, 提出了一种
采用三维人脸网格生成添加口罩遮挡的数据增
强方法。 最后, 针对模型参数量庞大的问题, 提出
了一种采用知识蒸馏压缩模型的方法。 此方法较
好地平衡了速度与精度, 实现了口罩遮挡人脸检
测与识别的优异性能, 具有广泛的适用性。
权利要求书2页 说明书6页 附图2页
CN 115497139 A
2022.12.20
CN 115497139 A
1.一种融合注意力机制的口罩遮挡人脸检测与识别方法, 其特征在于, 采用人脸器官
注意力机制FOA, 使模型聚焦于未被口罩遮挡的人脸器官, 包括对无遮挡人脸数据集进 行添
加虚拟口罩的数据增强处理、 对人脸图像进行特征提取与融合、 对提取 的人脸特征进行局
部器官关注、 使用知识蒸馏压缩 模型的参数量、 网络训练与测试五个部分,
第一部分包括两个步骤:
步骤1, 下载公开人脸识别数据集, 此时的数据集包含的都是正常的无遮挡人脸, 接下
来使用人脸关键点检测算法提取人脸的468个关键点, 并从中筛选出五个关键点的坐标进
行仿射变换, 将人脸对齐并裁 剪得到原 始样本;
步骤2, 建立一种添加虚拟口罩遮挡的数据增强器, 该数据增强器获取步骤1中得到的
468个人脸关键点坐标, 从468 个人脸关键点坐标中按照索引筛选会被口罩遮挡的下半部 分
关键点, 并根据这些关键点进行Delaunay三角剖分将人脸划分了多个网格; 对各种样式的
口罩同样进行三角剖分得到与 原始样本人脸位置对应的网格; 逐网格的将口罩进 行仿射变
换映射到人脸对应位置的网格上, 最 终将经过数据增强后的人脸输入到网络中作为训练样
本;
第二部分包括两个步骤:
步骤3, 将步骤2得到的训练样本输入到改进后的Swin Transformer主干特征提取后得
到人脸的初步 提取特征图I;
步骤4, 对步骤3得到的初步提取特征图传入到后续的人脸器官注意力机制(Face
Organ Attention, FOA)中对未被口罩遮挡的人脸器官进行重点关注, 具体见第三部分;
第三部分包括四个步骤:
步骤5, 将步骤4中的初步提取特征图 I∈ℝ(H×W)×C转换为三维特征图 G∈ℝH×W×C后设置
池化核尺度为 Kh, 步长为Sh沿着水平方向进行平均池化, 池化核尺度为 Kw, 步长为Sw沿着垂
直方向进行平均池化, 分别得到浓缩特征 Wavg∈ℝ1×H/Windowsize ×C、Havg∈ℝH/Windowsize ×1×C, 其
中Windowsize 代表特征图将 被划分的窗口数, 本发 明使用∈ ℝH×W×C符号来描述特征图的尺
度大小, H、 W、 C分别代 表特征图的高、 宽以及通道数;
步骤6, 将步骤5得到的浓缩特征 Wavg和Havg进行拼接得到 M, 设定一个超参数r, 使 M经过1
×1的2维卷积之后得到特征层 M1, 接下来插入一个BN层和GE LU激活函数得到特征层 M2, 此时
的M2同时具备了输入特征G在x轴和y轴上的特 征浓缩;
步骤7, 将步骤6中混合了空间位置信息的 M2进行分割后进行转置, 再次通过1 ×1的2维
卷积之后变回通道数为 c的W′、 H′, 这两个特征层的参数代表了空间上的权重。 最后将 W′、 H′
与G矩阵对应位置元 素进行相乘得到 G′, 也就是将空间上的权 重叠加在输入特 征层中;
步骤8, 将FOA注意力加在了Transformer Layer中, 使用后续的联合损失函数监督模型
自适应地调整窗口权 重;
第四部分包括两个步骤:
步骤9, 训练出一个参数量较大的教师模型 (embed_dim为96) , 再将此教师模型的输出
与学生模 型 (embed_dim为48) 计算余弦距离得到余弦损失以指导学生模 型的输出特征向量
近似教师模型的输出 特征向量;
步骤10, 在训练学生模型时加上步骤9得到的余弦损失以指导学生模型的输出特征向
量近似教师模型的输出 特征向量;权 利 要 求 书 1/2 页
2
CN 115497139 A
2第五部分包括两个步骤:
步骤11, 调试从步骤3到步骤10 的网络结构超参数, 其中, 设置最小批次为64, 总epoch
为20, 并使用了pati ence为4, 初始学习率为
的Adam优化器按步骤3到步骤10对模型进行
训练。 并得到最终的教师模型与学生模型;
步骤12, 将测试集输入步骤11中的训练模型中, 对方法在无遮挡人脸数据集LFW、 虚拟
口罩遮挡人脸识别数据集MLFW与真实口罩遮挡数据集MWHN上分别进行验证, 教师模型在
LFW测试集上的准确率为99.62%, 在虚拟口罩遮挡测试集MLFW上的准确率为99.10%, 在真实
口罩遮挡数据集MWHN上的准确率为85.60%。 使用了知识蒸馏后的学生模型在LFW测试集上
的准确率为99.56%, 在虚拟口罩遮挡测试集MLFW上的准确率为99.03%, 在真实 口罩遮挡数
据集MWHN上的准确率为83.96%, 模型的参数量从教师网络的70.27MB降低到了26.85MB这充
分证明了 本方法的有效性。
2.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法, 其特
征在于, 步骤2中使用了一种数据增强器给 无遮挡人脸添加虚拟口罩遮挡。
3.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法, 其特
征在于, 步骤5中使用人脸器官注意力机制FOA对未被口罩遮挡的人脸器官进行重点关注。
4.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法, 其特
征在于, 步骤9中使用知识蒸馏压缩 模型的参数量。权 利 要 求 书 2/2 页
3
CN 115497139 A
3
专利 一种融合注意力机制的口罩遮挡人脸检测与识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:36上传分享