(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211137947.8
(22)申请日 2022.09.19
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 李建强 陈柳乐 王瑾 高正凯
宋秉谕 李韫昱
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 刘萍
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/30(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于双路摄 像头的商品识别方法
(57)摘要
一种基于双路摄像头的商品识别方法涉及
到基于深度学习的商品识别方法。 本发明中对两
个角度的画面进行融合检测, 提高了商品的识别
精度。 使用混合的数据对特征提取主干网络进行
训练, 得到的特征提取主干网络可以同时提取两
个角度的画面的特征, 降低了使用传统目标检测
算法时特 征提取主干网络的训练成本 。
权利要求书4页 说明书6页 附图1页
CN 115482464 A
2022.12.16
CN 115482464 A
1.一种基于双路摄 像头的商品识别方法, 其特 征在于包括以下步骤:
步骤1: 数据集构建
构建模型训练所需数据集;
步骤1.1视频录制
通过网线连接智能售货柜的工程控制及和电脑, 使用Opencv并以并行的方式对主、 副
摄像头同时观察到的购物过程画面进行视频录制;
步骤1.2视频采帧
以录制的同一个购物过程的两路视频的最小帧数为上限, 帧差为5的方式对视频进行
采帧, 从而保证帧与帧之间的商品位置有足够的变化;
步骤1.3去噪
使用大小为3*3的中值滤波去噪算子对所采图像进行处理得到去噪后的购物过程图
像;
步骤1.4图像标注
使用标注软件LabelImg对所采图像进行标注, 标注 目标为购买者抓取的物品, 标注包
含该物品的位置信息和种类信息; 标注框应当包 含图像中的商品轮廓;
步骤2: 模型构建
构建特征提取主干网络, 主、 副摄像头对应的单路检测头以及融合检测头; 具体实现采
用mmdetecti on深度学习框架;
步骤2.1特 征提取主干网络构建
特征提取主干网络采用Swin Transformer的架构, 选用的架构共分4层, 每层分别由2、
2、 6、 2个串联的基础模块构成, 每层的通道维度分别为96、 192、 384、 768, 注意力头的个数分
别为3、 6、 12、 24, 基础模块涉及的窗口注意力的窗口大小为7, 其他参数均由mmdetection ‑
2.23.0中的默认参数确定;
步骤2.2主、 副摄 像头对应的单路检测头构建
主、 副摄像头对应的单路检测头采用DETRHead架构, 该检测头为基于多头注意力的无
锚框检测头, 由6层编码层和6层解码层以及一个多层感知机模块构成, 各编码层均由一个
多头注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模
块串联构成, 其中多头注意力的注意力头个数为8, query的维度为256, 前馈神经网络模块
的隐藏层维度为2048; 各解码层均由一个多头注意力模块, 一个神经层正则化模块, 一个交
叉注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模块
串联构成, 其中多头注意力模块和交叉注意力模块的注意力头个数均为8, query 的维度为
256, 前馈神经网络模块的隐藏层 维度为2048; 待检测目标的Boun dingbox坐标由检测头的
多层感知机模块预测; 其 他参数均由m mdetecti on‑2.23.0中的默认参数确定;
步骤2.3融合检测头构建
融合检测头为DETRHead架构, 该检测头为基于多头注意力的无锚框检测头, 由8层编码
层和8层解码层以及一个线性层模块构成, 8层编码层 除第一层由一个融合多头注意力模
块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模块串联构成外
其余各编码层均由一个多头注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块
和一个神经层正则化模块串联构成, 其中多头注意力的注意力头个数为8, query 的维度为权 利 要 求 书 1/4 页
2
CN 115482464 A
2256, 前馈神经网络模块的隐藏层维度为2048; 各解码层均由一个多头注意力模块, 一个神
经层正则化模块, 一个交叉注 意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和
一个神经层正则化模块串联构成, 其中多头注意力模块和交叉注意力模块的注意力头个数
均为8, query的维度为256, 前馈神经网络模块的隐藏层维度为2048; 融合检测头还包括其
他参数均由mmdetection ‑2.23.0中的默认 参数确定; 待检测目标的类别信息由线性层模块
预测;
步骤3: 模型训练
模型训练使用构建好的数据集首先对特征提取主干网络进行训练, 然后对单路检测头
进行训练, 最后增设融合检测头进行融合检测头的训练; 具体实现采用mmdetect ion深度学
习框架;
步骤3.1特 征提取主干网络训练
将通过主、 副摄像头采取的训练数据全部输入单分支 的目标检测网络进行训练, 然后
将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损失, 将目标类别
置信度输入交叉熵损失函数计算损失, 将两个损失求和作为最终损失, 用反向传播和梯度
下降的方式对模型参数进行优化, 最终求得特征提取主干网络对应的权重, 完成特征提取
主干网络的训练, 此处单分支的目标检测网络指特 征提取主干网络串联一个单路检测头;
步骤3.2主、 副摄 像头对应的单路检测头训练
首先将步骤3.1训练所得特征提取主干网络串联主摄像头对应的单路检测头, 用
mmdetection框架冻结训练好的特征提取主干网络的参数后, 将主摄像头拍摄所得的图像
数据输入模 型, 将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损
失, 用反向传播和梯度下降的方式对单路检测头的参数进行优化, 求得主摄像头对应的单
路检测头的权重, 完成对主摄像头分支检测头的训练; 之后对副摄像头对应的数据和单路
检测头进行同样的操作, 得到副摄像头对应的单路检测头的权重, 完成对副摄像头分支检
测头的训练;
步骤3.3融合检测头训练
首先通过mmdetection框架冻结已经训练好的特征提取主干网络和单路检测头的参
数, 对融合检测头进 行设置, 如图1所示, 将主、 副摄像头对应的单路检测头编码部 分输出的
特征输入融合检测头, 以两个分支的特征与对应的融合权重矩阵做哈达玛积并将结果相加
的方式对两个分支的特征进行融合, 融合后的特征图输入解码部分 并由最后的线性层输出
融合检测后的目标类别置信度; 将融合检测头预测的目标类别置信度输入FocalLoss损失
函数, 用反向传播的方式对模型参数进 行优化, 得到融合检测头对应的权重, 完成对融合检
测头的训练;
步骤4: 推理识别
对指定要检测的视频信息, 设置帧差为5, 以帧差为帧间距抽取关键帧, 将主、 副摄像头
对应的关键 帧输入特征提取主干网络, 融合检测头输出检测出的目标 的类别置信度, 单路
检测头输出主、 副摄像头对应的画面中的目标的Bounding Box坐标; 具体实现采用
mmdetecti on深度学习框架;
步骤4.1特 征提取主干网络推理识别:
特征提取主干网络接收主、 副摄像头 同时拍摄到的关键帧, 该关键帧为高480宽640的权 利 要 求 书 2/4 页
3
CN 115482464 A
3
专利 一种基于双路摄像头的商品识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:55:38上传分享