专利 一种基于双路摄像头的商品识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211137947.8 (22)申请日 2022.09.19 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人李建强　陈柳乐　王瑾　高正凯　宋秉谕　李韫昱　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师刘萍 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/30(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于双路摄像头的商品识别方法 (57)摘要一种基于双路摄像头的商品识别方法涉及到基于深度学习的商品识别方法。本发明中对两个角度的画面进行融合检测，提高了商品的识别精度。使用混合的数据对特征提取主干网络进行训练，得到的特征提取主干网络可以同时提取两个角度的画面的特征，降低了使用传统目标检测算法时特征提取主干网络的训练成本。权利要求书4页说明书6页附图1页 CN 115482464 A 2022.12.16 CN 115482464 A 1.一种基于双路摄像头的商品识别方法，其特征在于包括以下步骤：步骤1：数据集构建构建模型训练所需数据集；步骤1.1视频录制通过网线连接智能售货柜的工程控制及和电脑，使用Opencv并以并行的方式对主、副摄像头同时观察到的购物过程画面进行视频录制；步骤1.2视频采帧以录制的同一个购物过程的两路视频的最小帧数为上限，帧差为5的方式对视频进行采帧，从而保证帧与帧之间的商品位置有足够的变化；步骤1.3去噪使用大小为3*3的中值滤波去噪算子对所采图像进行处理得到去噪后的购物过程图像；步骤1.4图像标注使用标注软件LabelImg对所采图像进行标注，标注目标为购买者抓取的物品，标注包含该物品的位置信息和种类信息；标注框应当包含图像中的商品轮廓；步骤2：模型构建构建特征提取主干网络，主、副摄像头对应的单路检测头以及融合检测头；具体实现采用mmdetecti on深度学习框架；步骤2.1特征提取主干网络构建特征提取主干网络采用Swin Transformer的架构，选用的架构共分4层，每层分别由2、 2、 6、 2个串联的基础模块构成，每层的通道维度分别为96、 192、 384、 768，注意力头的个数分别为3、 6、 12、 24，基础模块涉及的窗口注意力的窗口大小为7，其他参数均由mmdetection ‑ 2.23.0中的默认参数确定；步骤2.2主、副摄像头对应的单路检测头构建主、副摄像头对应的单路检测头采用DETRHead架构，该检测头为基于多头注意力的无锚框检测头，由6层编码层和6层解码层以及一个多层感知机模块构成，各编码层均由一个多头注意力模块，一个神经层正则化模块，一个前馈神经网络模块和一个神经层正则化模块串联构成，其中多头注意力的注意力头个数为8， query的维度为256，前馈神经网络模块的隐藏层维度为2048；各解码层均由一个多头注意力模块，一个神经层正则化模块，一个交叉注意力模块，一个神经层正则化模块，一个前馈神经网络模块和一个神经层正则化模块串联构成，其中多头注意力模块和交叉注意力模块的注意力头个数均为8， query 的维度为 256，前馈神经网络模块的隐藏层维度为2048；待检测目标的Boun dingbox坐标由检测头的多层感知机模块预测；其他参数均由m mdetecti on‑2.23.0中的默认参数确定；步骤2.3融合检测头构建融合检测头为DETRHead架构，该检测头为基于多头注意力的无锚框检测头，由8层编码层和8层解码层以及一个线性层模块构成， 8层编码层除第一层由一个融合多头注意力模块，一个神经层正则化模块，一个前馈神经网络模块和一个神经层正则化模块串联构成外其余各编码层均由一个多头注意力模块，一个神经层正则化模块，一个前馈神经网络模块和一个神经层正则化模块串联构成，其中多头注意力的注意力头个数为8， query 的维度为权　利　要　求　书 1/4 页 2 CN 115482464 A 2256，前馈神经网络模块的隐藏层维度为2048；各解码层均由一个多头注意力模块，一个神经层正则化模块，一个交叉注意力模块，一个神经层正则化模块，一个前馈神经网络模块和一个神经层正则化模块串联构成，其中多头注意力模块和交叉注意力模块的注意力头个数均为8， query的维度为256，前馈神经网络模块的隐藏层维度为2048；融合检测头还包括其他参数均由mmdetection ‑2.23.0中的默认参数确定；待检测目标的类别信息由线性层模块预测；步骤3：模型训练模型训练使用构建好的数据集首先对特征提取主干网络进行训练，然后对单路检测头进行训练，最后增设融合检测头进行融合检测头的训练；具体实现采用mmdetect ion深度学习框架；步骤3.1特征提取主干网络训练将通过主、副摄像头采取的训练数据全部输入单分支的目标检测网络进行训练，然后将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损失，将目标类别置信度输入交叉熵损失函数计算损失，将两个损失求和作为最终损失，用反向传播和梯度下降的方式对模型参数进行优化，最终求得特征提取主干网络对应的权重，完成特征提取主干网络的训练，此处单分支的目标检测网络指特征提取主干网络串联一个单路检测头；步骤3.2主、副摄像头对应的单路检测头训练首先将步骤3.1训练所得特征提取主干网络串联主摄像头对应的单路检测头，用 mmdetection框架冻结训练好的特征提取主干网络的参数后，将主摄像头拍摄所得的图像数据输入模型，将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损失，用反向传播和梯度下降的方式对单路检测头的参数进行优化，求得主摄像头对应的单路检测头的权重，完成对主摄像头分支检测头的训练；之后对副摄像头对应的数据和单路检测头进行同样的操作，得到副摄像头对应的单路检测头的权重，完成对副摄像头分支检测头的训练；步骤3.3融合检测头训练首先通过mmdetection框架冻结已经训练好的特征提取主干网络和单路检测头的参数，对融合检测头进行设置，如图1所示，将主、副摄像头对应的单路检测头编码部分输出的特征输入融合检测头，以两个分支的特征与对应的融合权重矩阵做哈达玛积并将结果相加的方式对两个分支的特征进行融合，融合后的特征图输入解码部分并由最后的线性层输出融合检测后的目标类别置信度；将融合检测头预测的目标类别置信度输入FocalLoss损失函数，用反向传播的方式对模型参数进行优化，得到融合检测头对应的权重，完成对融合检测头的训练；步骤4：推理识别对指定要检测的视频信息，设置帧差为5，以帧差为帧间距抽取关键帧，将主、副摄像头对应的关键帧输入特征提取主干网络，融合检测头输出检测出的目标的类别置信度，单路检测头输出主、副摄像头对应的画面中的目标的Bounding Box坐标；具体实现采用 mmdetecti on深度学习框架；步骤4.1特征提取主干网络推理识别：特征提取主干网络接收主、副摄像头同时拍摄到的关键帧，该关键帧为高480宽640的权　利　要　求　书 2/4 页 3 CN 115482464 A 3

专利 一种基于双路摄像头的商品识别方法

专利一种基于双路摄像头的商品识别方法