国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211132360.8 (22)申请日 2022.09.17 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 刘博 李金书 王慧娜  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 刘萍 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/52(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sformer架构的 图像语义分割 方法 (57)摘要 一种基于Tran sformer架构的 图像语义分割 方法属于医学图像 分割技术领域。 本发明提供一 种带有移动窗口的分层Swin  Transformer编码 器来提取图像上下文特征的方法。 首先图像块被 输入到基于Transformer的编码器 ‑解码器架构 中, 其中移动窗口机制的设计使得特征包含信息 更全面。 而U Net++模型中嵌套和密集的跳跃连接 能够充分提取上下文特征, 使得特征融合更充 分。 权利要求书3页 说明书6页 附图4页 CN 115482382 A 2022.12.16 CN 115482382 A 1.一种基于Transformer 架构的图像 语义分割方法, 其特 征在于: 步骤1、 预处理模块; 将初始输入 的图像缩放, 调整后的图像尺寸记为W ×H,其中W表示 图像的宽, H表 示图像的高, W ×H描述图像的分辨率, 即像素点的个数; 接着对输入图像进 行 数据增强, 以增加数据多样性; Patch  Partition将图像的尺寸压缩; Linear  Embedding则 利用线性嵌入层将投影的特 征维转化为任意维C; 步骤2、 Swin ‑UNet++模块; 基于SwinTrans former块对步骤 1输出的特征图进行学习; 使 用patch合并层和Swin  Transformer块完成下采样, 使用pat ch扩展层和Swin  Transformer 块完成上采样; 下采样过程中, 通过多个Swin  Transformer块和patch合并层, 生成分层特 征表示; 上采样过程则包括多个SwinTransformer块和patch扩展层; 通过跳跃连接将提取 的上下文特征与编码器的多尺度特 征融合, 以弥补下采样造成的空间信息损失; 步骤3、 恢复模块; 对步骤2中Swin ‑UNet++模块输出的特征 图进行像素级的预测; 利用 patch扩展层恢复图像特征尺 寸, 将特征映射的分辨率恢复到输入分辨率W ×H; 然后对这些 上采样的特 征进行线性投影, 映射到特定的维度, 从而得到像素级分类预测的结果。 2.根据权利要求1所述的一种基于Transformer架构的图像语义分割方法, 其特征在 于: 步骤1.1图像预处 理 该预处理模块的输入为原始图像, 将其尺寸缩放为W ×H; 其中H表示图像的高, W表示图 像的宽; 随机地对图像翻转和旋转; 步骤1.2图像的划分 为了将输入信息转化为序列嵌入, Patch  Partition层主要作用为将经预处理的图像 进行尺寸压缩, 从而减小序列的长度; 将医学图像的像素点划分成大小为N ×N、 互不重叠的 patch; 通过这种划分方法, 每个patch窗口被视为一个 “令牌”, 其特征被设置为原始像素 RGB值的拼接,即为3, 因此每个pat ch的特征 维数变为N ×N×3; N设为4, Patch  Partition为 卷积运算, 卷积核大小为 4×4, 卷积步长为 4; 步骤1.3利用线性嵌入层进行特征映射, 将投影的特征维转化为任意维C, 从而得到特 征图; 步骤2、 Swin ‑UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对 多个层次的特征进行融合; 该模块的输入 数据是步骤1输出的特征图, 大小为W/4 ×H/4×C; 该模块的输出 是提取后的特 征图, 大小为 W/4×H/4×C; 下采样过程由编码器实现; 编码器 由SwinBlock层和patch合并层交替相 连; 编码器 的 输入数据是步骤1输出的特征图W/4 ×H/4×C; 编码器的输出是提取的特征图W/32 ×H/32× 8C; 编码器结构依次为: 输入数据 →第一个Swin  Block层 →patch合并层 →第二个Swin   Block层→patch合并层→第三个Sw in Block层→patch合并层→瓶颈层 其中, Swin  Block层由单个Swin  Transformer模块连接构成; patch合并层在patch的 行和列方向上间隔一定距离选取元素, 将各个部分拼接在一起作为一个张量, 最后展开, 此 时通过通道归一化和全连接层调整通道维数; 通过这种处理, 减少特征分辨率并增加特征 的维数, 从而实现降采样; 编码器中的最后一个patch合并层与瓶颈层中的第一个Swin   Transformer  Block相连; 瓶颈层由2个Swin  Transformer  Block依次连接组成, 瓶颈层的权 利 要 求 书 1/3 页 2 CN 115482382 A 2两个Swin  Transformer  Block分别利用通道归一化操作和全连接层连接编码器中最后一 个patch合并层的输出和上采样阶段最底层patch扩展层的输入; 即上采样阶段最底层的 patch扩展层与瓶颈层中的第二个Sw in Transformer  Block连接; 在编码器的基础上, 经过逐层次的上采样和特征融合充分理解图像的上下文信息; 特 征融合由多个跳跃连接和patch扩展层实现; 通过跳跃连接将同一密集块上一个Swin   Block层的输出与下一个密集块对应的上采样 输出融合在一起; patch扩展层首先通过一个 全连接层扩展通道数, 利用rearrange  operation将相邻维度的特征图重组成更大的特征 图, 再进行LayerN orm通道归一 化处理, 从而实现上采样; 用Bi,j表示经SwinBlock层Bi,j进行特征学习的输出, 其中i索引编码器的下采样层, j沿 跳跃路径索引Sw inBlock层, 设置每 个Swin Block层中包 含两个Sw in Transformer  Block; Swin‑UNet++架构进行 特征融合的步骤如下: 1).将B0,0与B1,0对应的上采样输出融合, 得到B0,1; 2).在1)之后, 将B1,0和B2,0对应的上采样输出融合得到B1, 1; B1,1的上采样输出与B0,0、 B0 ,1通过跳跃 连接融合得到B0,2; 3).经过逐层次的上采样和特征融合, 依 次得到B2,1、 B1,2, 最终得到B0,3; B0,3为B1,2的上 采样输出和B0,0、 B0,1、 B0,2融合所得; 单个SwinTransformerBlock的结构依 次为: 特征图输入数据 →LN正则化层 →W‑MSA子 模块或者SW‑MSA子模块 →残差连接层 →LN正则化层 →前馈网络MLP →残差连接层 →输出的 特征图; Swin  Block层中该SwinTransformerBlock的结构 共循环2次, 奇数层与偶数层依次 间隔连接, 其中奇数层采用的是W ‑MSA子模块, 偶数层采用的是SW ‑MSA子模块; W‑MSA子模块主要采用规则窗口划分策略, 从左上角像素开始, 将特征映射均匀划分为 窗口, 每个窗口包含一定的patch; 通过在子空间中计算注 意力向量来捕获特征在不同子空 间的依赖关系, 即分别在所有子空间上做点乘运算计算注意力向量, 最后把所有子空间计 算得到的注意力向量拼接起来, 并映射到原输入空间中得到最终的注意力向量作为输出, 从而更好 地获取局部、 全局的语义信息; SW‑MSA子模块则在图像特征输入之前, 将图像特征进行尺寸为半个窗口大小的像素位 移操作, 然后再进 行W‑MSA子模块操作; 窗口分区被移动, 产生新的窗口分区, 引入了相 邻的 非重叠窗口之间的连接; 使用移位窗口分区方法, 连续的Sw inTransformerBl ock计算为: 其中zl‑1表示Swin  Transformer块的输入特征, 和zl分别表示第l个Swin   Transformer块中W ‑MSA模块和MLP模块的输出特征; 和zl+1则分别表示第l+1块Swin   Transformer中SW ‑MSA模块和MLP模块的输出特征; W ‑MSA和SW‑MSA分别使用规则和 移位窗 口分区在每个窗口中计算自注意力: 先将查询向量Q和键向量K点乘, 再除以键向量K的维度权 利 要 求 书 2/3 页 3 CN 115482382 A 3

.PDF文档 专利 一种基于Transformer架构的图像语义分割方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Transformer架构的图像语义分割方法 第 1 页 专利 一种基于Transformer架构的图像语义分割方法 第 2 页 专利 一种基于Transformer架构的图像语义分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:55:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。