专利 一种融合注意力机制的口罩遮挡人脸检测与识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211188477.8 (22)申请日 2022.09.28 (71)申请人西南科技大学地址 621010 四川省绵阳市青龙大道中段 59号 (72)发明人张红英　叶子勋　 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种融合注意力机制的口罩遮挡人脸检测与识别方法 (57)摘要本发明给出一种融合注意力机制的口罩遮挡人脸检测与识别方法，首先，该网络改进了 Swin Transformer用于人脸特征的提取；其次，提出了一种人脸器官注意力机制FOA，使模型聚焦于未被口罩遮挡的人脸器官；然后，针对当前口罩遮挡人脸数据集不充分的问题，提出了一种采用三维人脸网格生成添加口罩遮挡的数据增强方法。最后，针对模型参数量庞大的问题，提出了一种采用知识蒸馏压缩模型的方法。此方法较好地平衡了速度与精度，实现了口罩遮挡人脸检测与识别的优异性能，具有广泛的适用性。权利要求书2页说明书6页附图2页 CN 115497139 A 2022.12.20 CN 115497139 A 1.一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，采用人脸器官注意力机制FOA，使模型聚焦于未被口罩遮挡的人脸器官，包括对无遮挡人脸数据集进行添加虚拟口罩的数据增强处理、对人脸图像进行特征提取与融合、对提取的人脸特征进行局部器官关注、使用知识蒸馏压缩模型的参数量、网络训练与测试五个部分，第一部分包括两个步骤：步骤1，下载公开人脸识别数据集，此时的数据集包含的都是正常的无遮挡人脸，接下来使用人脸关键点检测算法提取人脸的468个关键点，并从中筛选出五个关键点的坐标进行仿射变换，将人脸对齐并裁剪得到原始样本；步骤2，建立一种添加虚拟口罩遮挡的数据增强器，该数据增强器获取步骤1中得到的 468个人脸关键点坐标，从468 个人脸关键点坐标中按照索引筛选会被口罩遮挡的下半部分关键点，并根据这些关键点进行Delaunay三角剖分将人脸划分了多个网格；对各种样式的口罩同样进行三角剖分得到与原始样本人脸位置对应的网格；逐网格的将口罩进行仿射变换映射到人脸对应位置的网格上，最终将经过数据增强后的人脸输入到网络中作为训练样本；第二部分包括两个步骤：步骤3，将步骤2得到的训练样本输入到改进后的Swin Transformer主干特征提取后得到人脸的初步提取特征图I；步骤4，对步骤3得到的初步提取特征图传入到后续的人脸器官注意力机制(Face Organ Attention, FOA)中对未被口罩遮挡的人脸器官进行重点关注，具体见第三部分；第三部分包括四个步骤：步骤5，将步骤4中的初步提取特征图 I∈ℝ(H×W)×C转换为三维特征图 G∈ℝH×W×C后设置池化核尺度为 Kh，步长为Sh沿着水平方向进行平均池化，池化核尺度为 Kw，步长为Sw沿着垂直方向进行平均池化，分别得到浓缩特征 Wavg∈ℝ1×H/Windowsize ×C、Havg∈ℝH/Windowsize ×1×C，其中Windowsize 代表特征图将被划分的窗口数，本发明使用∈ ℝH×W×C符号来描述特征图的尺度大小， H、 W、 C分别代表特征图的高、宽以及通道数；步骤6，将步骤5得到的浓缩特征 Wavg和Havg进行拼接得到 M，设定一个超参数r，使 M经过1 ×1的2维卷积之后得到特征层 M1，接下来插入一个BN层和GE LU激活函数得到特征层 M2，此时的M2同时具备了输入特征G在x轴和y轴上的特征浓缩；步骤7，将步骤6中混合了空间位置信息的 M2进行分割后进行转置，再次通过1 ×1的2维卷积之后变回通道数为 c的W′、 H′，这两个特征层的参数代表了空间上的权重。最后将 W′、 H′ 与G矩阵对应位置元素进行相乘得到 G′，也就是将空间上的权重叠加在输入特征层中；步骤8，将FOA注意力加在了Transformer Layer中，使用后续的联合损失函数监督模型自适应地调整窗口权重；第四部分包括两个步骤：步骤9，训练出一个参数量较大的教师模型（embed_dim为96），再将此教师模型的输出与学生模型（embed_dim为48）计算余弦距离得到余弦损失以指导学生模型的输出特征向量近似教师模型的输出特征向量；步骤10，在训练学生模型时加上步骤9得到的余弦损失以指导学生模型的输出特征向量近似教师模型的输出特征向量；权　利　要　求　书 1/2 页 2 CN 115497139 A 2第五部分包括两个步骤：步骤11，调试从步骤3到步骤10 的网络结构超参数，其中，设置最小批次为64，总epoch 为20，并使用了pati ence为4，初始学习率为的Adam优化器按步骤3到步骤10对模型进行训练。并得到最终的教师模型与学生模型；步骤12，将测试集输入步骤11中的训练模型中，对方法在无遮挡人脸数据集LFW、虚拟口罩遮挡人脸识别数据集MLFW与真实口罩遮挡数据集MWHN上分别进行验证，教师模型在 LFW测试集上的准确率为99.62%，在虚拟口罩遮挡测试集MLFW上的准确率为99.10%，在真实口罩遮挡数据集MWHN上的准确率为85.60%。使用了知识蒸馏后的学生模型在LFW测试集上的准确率为99.56%，在虚拟口罩遮挡测试集MLFW上的准确率为99.03%，在真实口罩遮挡数据集MWHN上的准确率为83.96%，模型的参数量从教师网络的70.27MB降低到了26.85MB这充分证明了本方法的有效性。 2.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤2中使用了一种数据增强器给无遮挡人脸添加虚拟口罩遮挡。 3.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤5中使用人脸器官注意力机制FOA对未被口罩遮挡的人脸器官进行重点关注。 4.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤9中使用知识蒸馏压缩模型的参数量。权　利　要　求　书 2/2 页 3 CN 115497139 A 3

专利 一种融合注意力机制的口罩遮挡人脸检测与识别方法

专利一种融合注意力机制的口罩遮挡人脸检测与识别方法