国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211137947.8 (22)申请日 2022.09.19 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 李建强 陈柳乐 王瑾 高正凯  宋秉谕 李韫昱  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 刘萍 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/30(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于双路摄 像头的商品识别方法 (57)摘要 一种基于双路摄像头的商品识别方法涉及 到基于深度学习的商品识别方法。 本发明中对两 个角度的画面进行融合检测, 提高了商品的识别 精度。 使用混合的数据对特征提取主干网络进行 训练, 得到的特征提取主干网络可以同时提取两 个角度的画面的特征, 降低了使用传统目标检测 算法时特 征提取主干网络的训练成本 。 权利要求书4页 说明书6页 附图1页 CN 115482464 A 2022.12.16 CN 115482464 A 1.一种基于双路摄 像头的商品识别方法, 其特 征在于包括以下步骤: 步骤1: 数据集构建 构建模型训练所需数据集; 步骤1.1视频录制 通过网线连接智能售货柜的工程控制及和电脑, 使用Opencv并以并行的方式对主、 副 摄像头同时观察到的购物过程画面进行视频录制; 步骤1.2视频采帧 以录制的同一个购物过程的两路视频的最小帧数为上限, 帧差为5的方式对视频进行 采帧, 从而保证帧与帧之间的商品位置有足够的变化; 步骤1.3去噪 使用大小为3*3的中值滤波去噪算子对所采图像进行处理得到去噪后的购物过程图 像; 步骤1.4图像标注 使用标注软件LabelImg对所采图像进行标注, 标注 目标为购买者抓取的物品, 标注包 含该物品的位置信息和种类信息; 标注框应当包 含图像中的商品轮廓; 步骤2: 模型构建 构建特征提取主干网络, 主、 副摄像头对应的单路检测头以及融合检测头; 具体实现采 用mmdetecti on深度学习框架; 步骤2.1特 征提取主干网络构建 特征提取主干网络采用Swin  Transformer的架构, 选用的架构共分4层, 每层分别由2、 2、 6、 2个串联的基础模块构成, 每层的通道维度分别为96、 192、 384、 768, 注意力头的个数分 别为3、 6、 12、 24, 基础模块涉及的窗口注意力的窗口大小为7, 其他参数均由mmdetection ‑ 2.23.0中的默认参数确定; 步骤2.2主、 副摄 像头对应的单路检测头构建 主、 副摄像头对应的单路检测头采用DETRHead架构, 该检测头为基于多头注意力的无 锚框检测头, 由6层编码层和6层解码层以及一个多层感知机模块构成, 各编码层均由一个 多头注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模 块串联构成, 其中多头注意力的注意力头个数为8, query的维度为256, 前馈神经网络模块 的隐藏层维度为2048; 各解码层均由一个多头注意力模块, 一个神经层正则化模块, 一个交 叉注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模块 串联构成, 其中多头注意力模块和交叉注意力模块的注意力头个数均为8, query 的维度为 256, 前馈神经网络模块的隐藏层 维度为2048; 待检测目标的Boun dingbox坐标由检测头的 多层感知机模块预测; 其 他参数均由m mdetecti on‑2.23.0中的默认参数确定; 步骤2.3融合检测头构建 融合检测头为DETRHead架构, 该检测头为基于多头注意力的无锚框检测头, 由8层编码 层和8层解码层以及一个线性层模块构成, 8层编码层 除第一层由一个融合多头注意力模 块, 一个神经层正则化模块, 一个前馈神经网络模块和一个神经层正则化模块串联构成外 其余各编码层均由一个多头注意力模块, 一个神经层正则化模块, 一个前馈神经网络模块 和一个神经层正则化模块串联构成, 其中多头注意力的注意力头个数为8, query 的维度为权 利 要 求 书 1/4 页 2 CN 115482464 A 2256, 前馈神经网络模块的隐藏层维度为2048; 各解码层均由一个多头注意力模块, 一个神 经层正则化模块, 一个交叉注 意力模块, 一个神经层正则化模块, 一个前馈神经网络模块和 一个神经层正则化模块串联构成, 其中多头注意力模块和交叉注意力模块的注意力头个数 均为8, query的维度为256, 前馈神经网络模块的隐藏层维度为2048; 融合检测头还包括其 他参数均由mmdetection ‑2.23.0中的默认 参数确定; 待检测目标的类别信息由线性层模块 预测; 步骤3: 模型训练 模型训练使用构建好的数据集首先对特征提取主干网络进行训练, 然后对单路检测头 进行训练, 最后增设融合检测头进行融合检测头的训练; 具体实现采用mmdetect ion深度学 习框架; 步骤3.1特 征提取主干网络训练 将通过主、 副摄像头采取的训练数据全部输入单分支 的目标检测网络进行训练, 然后 将推理得到的目标的Bounding  Box坐标输入平均绝对误差损失函数计算损失, 将目标类别 置信度输入交叉熵损失函数计算损失, 将两个损失求和作为最终损失, 用反向传播和梯度 下降的方式对模型参数进行优化, 最终求得特征提取主干网络对应的权重, 完成特征提取 主干网络的训练, 此处单分支的目标检测网络指特 征提取主干网络串联一个单路检测头; 步骤3.2主、 副摄 像头对应的单路检测头训练 首先将步骤3.1训练所得特征提取主干网络串联主摄像头对应的单路检测头, 用 mmdetection框架冻结训练好的特征提取主干网络的参数后, 将主摄像头拍摄所得的图像 数据输入模 型, 将推理得到的目标的Bounding  Box坐标输入平均绝对误差损失函数计算损 失, 用反向传播和梯度下降的方式对单路检测头的参数进行优化, 求得主摄像头对应的单 路检测头的权重, 完成对主摄像头分支检测头的训练; 之后对副摄像头对应的数据和单路 检测头进行同样的操作, 得到副摄像头对应的单路检测头的权重, 完成对副摄像头分支检 测头的训练; 步骤3.3融合检测头训练 首先通过mmdetection框架冻结已经训练好的特征提取主干网络和单路检测头的参 数, 对融合检测头进 行设置, 如图1所示, 将主、 副摄像头对应的单路检测头编码部 分输出的 特征输入融合检测头, 以两个分支的特征与对应的融合权重矩阵做哈达玛积并将结果相加 的方式对两个分支的特征进行融合, 融合后的特征图输入解码部分 并由最后的线性层输出 融合检测后的目标类别置信度; 将融合检测头预测的目标类别置信度输入FocalLoss损失 函数, 用反向传播的方式对模型参数进 行优化, 得到融合检测头对应的权重, 完成对融合检 测头的训练; 步骤4: 推理识别 对指定要检测的视频信息, 设置帧差为5, 以帧差为帧间距抽取关键帧, 将主、 副摄像头 对应的关键 帧输入特征提取主干网络, 融合检测头输出检测出的目标 的类别置信度, 单路 检测头输出主、 副摄像头对应的画面中的目标的Bounding  Box坐标; 具体实现采用 mmdetecti on深度学习框架; 步骤4.1特 征提取主干网络推理识别: 特征提取主干网络接收主、 副摄像头 同时拍摄到的关键帧, 该关键帧为高480宽640的权 利 要 求 书 2/4 页 3 CN 115482464 A 3

.PDF文档 专利 一种基于双路摄像头的商品识别方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双路摄像头的商品识别方法 第 1 页 专利 一种基于双路摄像头的商品识别方法 第 2 页 专利 一种基于双路摄像头的商品识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:55:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。