专利 一种图像显著目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211144028.3 (22)申请日 2022.09.20 (71)申请人海信电子科技(武汉)有限公司地址 430073 湖北省武汉市东湖新技术开发区软件园东路1号软件产业4.1期B2 栋13层02号-2 (72)发明人唐敏　 (74)专利代理机构北京弘权知识产权代理有限公司 11363 专利代理师逯长明　孙亚芹 (51)Int.Cl. G06V 10/46(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称一种图像显著目标检测方法 (57)摘要本申请提供一种图像显著目标检测方法，构建基于轻量mobilenetv2骨干网络的检测模型，并在该骨干网络中引入融合侧连接，将骨干网络各层级的特征逐步融合，并在多个尺度上预测显著目标并进行监督学习，有效避免了过拟合。申请的图像显著目标检测方法构建的检测模型轻量，同时，通过引入融合侧连接，将各层级特征进行充分融合，使得该检测模型性能与现有的较大模型相当。本申请的图像显著目标检测方法中构建的检测模型轻量、且性能较好，适合电视终端部署，可应用于视觉目标跟踪和智能画质设置等电视应用场景。权利要求书1页说明书8页附图4页 CN 115512135 A 2022.12.23 CN 115512135 A 1.一种图像显著目标检测方法，其特征在于，包括：构建“编码‑解码”型卷积神经网络模型，其中，所述 “编码”部分采用轻量mobilenetv2 骨干网络，所述 “编码”部分用于对输入图片进行特征提取，生成一组特征图，包含高层级到低层级的特征图，各层级的特征图具有不同尺度的语义信息；在所述“解码”部分引入数个融合侧连接，按照从高层到低层的顺序，各层级融合侧连接将对应层级的特征图与上一层级的特征图进行特征融合，并利用融合后的特征图，获取预测显著图以及计算损失函数；利用各层级的损失函数进行训练，得到训练后的 “编码‑解码”型卷积神经网络模型；将图像数据输入训练后的 “编码‑解码”型卷积神经网络模型进行图像显著目标检测。 2.根据权利要求1所述的图像显著目标检测方法，其特征在于，在轻量mobilenetv2骨干网络中引入数个细节侧连接，所述细节侧连接用于在多个层级上预测显著目标边缘。 3.根据权利要求2所述的图像显著目标检测方法，其特征在于，每个所述细节侧连接包括细节头模块与细节损失计算模块，各层级特征图经过细节头模块，得到对应层级的显著目标边沿预测，并与真实显著图在不同尺度下的边沿计算细节损失函数。 4.根据权利要求1所述的图像显著目标检测方法，其特征在于， mobilenetv2骨干网络的轻量化过程为：在mobilenetv2网络中，去掉最后面的一个卷积层、一个自适应平均池化层和一个全连接层，得到轻量mobi lenetv2骨干网络。 5.根据权利要求1所述的图像显著目标检测方法，其特征在于，所述每个融合侧连接包括特征融合模块、分割头模块以及自动损失计算模块，相邻融合侧连接的特征融合模块之间设置拼接模块，对应层级的特征图与上一层级的融合特征图通过所述拼接模块进行特征拼接；拼接后的特征图进入所述特征融合模块进行特征融合处理，得到对应层级的融合特征图；所述融合特征图输入所述分割头模块，经语义分割，得到对应层级的预测显著图；根据所述预测显著图与真实显著图，计算各层级对应的损失函数。 6.根据权利要求5所述的图像显著目标检测方法，其特征在于，所述拼接后的特征图进入所述特征融合模块进行特征融合处理，得到对应层级的融合特征图,包括，拼接后的特征图经过卷积层、批量归一化层、激活层三层处理后，分成三个分支，其中，第一分支为残差结构中的直连分支；第二分支经过1x1卷积层后再分成三个子分支，分别对应着膨胀系数为1、 2、 3的空洞卷积，经过空洞卷积后得到的3个子分支输出相加，经过批量归一化层和激活层，再通过1x1卷积层后与第一子分支相加，第一子分支与第二子分支一起形成一个残差结构，再经过1x1卷积实现融合，该融合输出将与第三子分支再次融合；第三分支依次经过全局池化层、 1x1卷积层、激活层、 1x1卷积层和sigmoid层后得到权重系数，该权重系数与第一第二分支融合输出的结果对应相乘，得到最后的特征融合输出。 7.根据权利要求5所述的图像显著目标检测方法，其特征在于，所述分割头模块包括输出通道数为1的1х1卷积层和Sigmo id激活层。权　利　要　求　书 1/1 页 2 CN 115512135 A 2一种图像显著目标检测方法技术领域 [0001]本申请涉及图像处理技术领域，尤其涉及一种图像显著目标检测方法。背景技术 [0002]显著目标检测是模拟人类视觉的聚焦效应来检测图像中显著目标的区域。目前，显著目标检测已在图像检索、视觉目标跟踪、场景分类、基于内容的视频压缩和弱监督学习中有着广泛的应用。 [0003]目前，常用的显著目标检测方法均是基于深度学习的全卷积网络。卷积网络的骨干网络由若干个卷积模块堆叠组成，靠近输入的模块被称为低层，远离输入的模块被成为高层，其中，神经网络的高层包含语义相关的信息，神经网络的底层包含更多的细节信息。在显著目标检测过程中，通过融合不同层级(包括高层级与低层级)的特征，可有效提高显著检测的结果。 [0004]但是，现有的基于深度全卷积网络的显著目标检模型中，高层特征和低层特征的融合方法较为复杂，造成计算开销大。另外，目前的显著目标检测模型采用大骨干网络，资源消耗大，在小型设备终端难以部署。发明内容 [0005]本申请提供了一种图像显著目标检测方法，以解决现有的图像显著目标检测采用大骨干网络，并且采用的特征融合方法较为复杂，造成检测模型的计算开销大、资源消耗大，从而不易在小型设备终端部署的问题。 [0006]本申请提供了一种图像显著目标检测方法，包括： [0007]构建“编码‑解码”型卷积神经网络模型，其中，所述 “编码”部分采用轻量 mobilenetv2骨干网络，所述 “编码”部分用于对输入图片进行特征提取，生成一组特征图，包含高层级到低层级的特征图，各层级的特征图具有不同尺度的语义信息； [0008]在所述“解码”部分引入数个融合侧连接，按照从高层到低层的顺序，各层级融合侧连接将对应层级的特征图与上一层级的特征图进行特征融合，并利用融合后的特征图，获取预测显著图以及计算损失函数； [0009]利用各层级的损失函数进行训练，得到训练后的 “编码‑解码”型卷积神经网络模型； [0010]将图像数据输入训练后的 “编码‑解码”型卷积神经网络模型进行图像显著目标检测。 [0011]本申请提供一种图像显著目标检测方法，构建基于轻量mobilenetv2骨干网络的显著目标检测模型，并在该骨干网络中引入融合侧连接，将骨干网络各层级的特征逐步融合，并在多个尺度上预测显著目标并进行监督学习，有效避免了过拟合。 [0012]申请的图像显著目标检测方法构建的检测模型轻量，同时，通过引入融合侧连接，将各层级特征进行充分融合，使得该检测模型性能与现有的较大模型相当。本申请的图像说　明　书 1/8 页 3 CN 115512135 A 3

专利 一种图像显著目标检测方法

专利一种图像显著目标检测方法