(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211132360.8
(22)申请日 2022.09.17
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 刘博 李金书 王慧娜
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 刘萍
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/52(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于Tran sformer架构的 图像语义分割
方法
(57)摘要
一种基于Tran sformer架构的 图像语义分割
方法属于医学图像 分割技术领域。 本发明提供一
种带有移动窗口的分层Swin Transformer编码
器来提取图像上下文特征的方法。 首先图像块被
输入到基于Transformer的编码器 ‑解码器架构
中, 其中移动窗口机制的设计使得特征包含信息
更全面。 而U Net++模型中嵌套和密集的跳跃连接
能够充分提取上下文特征, 使得特征融合更充
分。
权利要求书3页 说明书6页 附图4页
CN 115482382 A
2022.12.16
CN 115482382 A
1.一种基于Transformer 架构的图像 语义分割方法, 其特 征在于:
步骤1、 预处理模块; 将初始输入 的图像缩放, 调整后的图像尺寸记为W ×H,其中W表示
图像的宽, H表 示图像的高, W ×H描述图像的分辨率, 即像素点的个数; 接着对输入图像进 行
数据增强, 以增加数据多样性; Patch Partition将图像的尺寸压缩; Linear Embedding则
利用线性嵌入层将投影的特 征维转化为任意维C;
步骤2、 Swin ‑UNet++模块; 基于SwinTrans former块对步骤 1输出的特征图进行学习; 使
用patch合并层和Swin Transformer块完成下采样, 使用pat ch扩展层和Swin Transformer
块完成上采样; 下采样过程中, 通过多个Swin Transformer块和patch合并层, 生成分层特
征表示; 上采样过程则包括多个SwinTransformer块和patch扩展层; 通过跳跃连接将提取
的上下文特征与编码器的多尺度特 征融合, 以弥补下采样造成的空间信息损失;
步骤3、 恢复模块; 对步骤2中Swin ‑UNet++模块输出的特征 图进行像素级的预测; 利用
patch扩展层恢复图像特征尺 寸, 将特征映射的分辨率恢复到输入分辨率W ×H; 然后对这些
上采样的特 征进行线性投影, 映射到特定的维度, 从而得到像素级分类预测的结果。
2.根据权利要求1所述的一种基于Transformer架构的图像语义分割方法, 其特征在
于:
步骤1.1图像预处 理
该预处理模块的输入为原始图像, 将其尺寸缩放为W ×H; 其中H表示图像的高, W表示图
像的宽; 随机地对图像翻转和旋转;
步骤1.2图像的划分
为了将输入信息转化为序列嵌入, Patch Partition层主要作用为将经预处理的图像
进行尺寸压缩, 从而减小序列的长度; 将医学图像的像素点划分成大小为N ×N、 互不重叠的
patch; 通过这种划分方法, 每个patch窗口被视为一个 “令牌”, 其特征被设置为原始像素
RGB值的拼接,即为3, 因此每个pat ch的特征 维数变为N ×N×3; N设为4, Patch Partition为
卷积运算, 卷积核大小为 4×4, 卷积步长为 4;
步骤1.3利用线性嵌入层进行特征映射, 将投影的特征维转化为任意维C, 从而得到特
征图;
步骤2、 Swin ‑UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对
多个层次的特征进行融合; 该模块的输入 数据是步骤1输出的特征图, 大小为W/4 ×H/4×C;
该模块的输出 是提取后的特 征图, 大小为 W/4×H/4×C;
下采样过程由编码器实现; 编码器 由SwinBlock层和patch合并层交替相 连; 编码器 的
输入数据是步骤1输出的特征图W/4 ×H/4×C; 编码器的输出是提取的特征图W/32 ×H/32×
8C;
编码器结构依次为: 输入数据 →第一个Swin Block层 →patch合并层 →第二个Swin
Block层→patch合并层→第三个Sw in Block层→patch合并层→瓶颈层
其中, Swin Block层由单个Swin Transformer模块连接构成; patch合并层在patch的
行和列方向上间隔一定距离选取元素, 将各个部分拼接在一起作为一个张量, 最后展开, 此
时通过通道归一化和全连接层调整通道维数; 通过这种处理, 减少特征分辨率并增加特征
的维数, 从而实现降采样; 编码器中的最后一个patch合并层与瓶颈层中的第一个Swin
Transformer Block相连; 瓶颈层由2个Swin Transformer Block依次连接组成, 瓶颈层的权 利 要 求 书 1/3 页
2
CN 115482382 A
2两个Swin Transformer Block分别利用通道归一化操作和全连接层连接编码器中最后一
个patch合并层的输出和上采样阶段最底层patch扩展层的输入; 即上采样阶段最底层的
patch扩展层与瓶颈层中的第二个Sw in Transformer Block连接;
在编码器的基础上, 经过逐层次的上采样和特征融合充分理解图像的上下文信息; 特
征融合由多个跳跃连接和patch扩展层实现; 通过跳跃连接将同一密集块上一个Swin
Block层的输出与下一个密集块对应的上采样 输出融合在一起; patch扩展层首先通过一个
全连接层扩展通道数, 利用rearrange operation将相邻维度的特征图重组成更大的特征
图, 再进行LayerN orm通道归一 化处理, 从而实现上采样;
用Bi,j表示经SwinBlock层Bi,j进行特征学习的输出, 其中i索引编码器的下采样层, j沿
跳跃路径索引Sw inBlock层, 设置每 个Swin Block层中包 含两个Sw in Transformer Block;
Swin‑UNet++架构进行 特征融合的步骤如下:
1).将B0,0与B1,0对应的上采样输出融合, 得到B0,1;
2).在1)之后, 将B1,0和B2,0对应的上采样输出融合得到B1, 1; B1,1的上采样输出与B0,0、 B0
,1通过跳跃 连接融合得到B0,2;
3).经过逐层次的上采样和特征融合, 依 次得到B2,1、 B1,2, 最终得到B0,3; B0,3为B1,2的上
采样输出和B0,0、 B0,1、 B0,2融合所得;
单个SwinTransformerBlock的结构依 次为: 特征图输入数据 →LN正则化层 →W‑MSA子
模块或者SW‑MSA子模块 →残差连接层 →LN正则化层 →前馈网络MLP →残差连接层 →输出的
特征图; Swin Block层中该SwinTransformerBlock的结构 共循环2次, 奇数层与偶数层依次
间隔连接, 其中奇数层采用的是W ‑MSA子模块, 偶数层采用的是SW ‑MSA子模块;
W‑MSA子模块主要采用规则窗口划分策略, 从左上角像素开始, 将特征映射均匀划分为
窗口, 每个窗口包含一定的patch; 通过在子空间中计算注 意力向量来捕获特征在不同子空
间的依赖关系, 即分别在所有子空间上做点乘运算计算注意力向量, 最后把所有子空间计
算得到的注意力向量拼接起来, 并映射到原输入空间中得到最终的注意力向量作为输出,
从而更好 地获取局部、 全局的语义信息;
SW‑MSA子模块则在图像特征输入之前, 将图像特征进行尺寸为半个窗口大小的像素位
移操作, 然后再进 行W‑MSA子模块操作; 窗口分区被移动, 产生新的窗口分区, 引入了相 邻的
非重叠窗口之间的连接;
使用移位窗口分区方法, 连续的Sw inTransformerBl ock计算为:
其中zl‑1表示Swin Transformer块的输入特征,
和zl分别表示第l个Swin
Transformer块中W ‑MSA模块和MLP模块的输出特征;
和zl+1则分别表示第l+1块Swin
Transformer中SW ‑MSA模块和MLP模块的输出特征; W ‑MSA和SW‑MSA分别使用规则和 移位窗
口分区在每个窗口中计算自注意力: 先将查询向量Q和键向量K点乘, 再除以键向量K的维度权 利 要 求 书 2/3 页
3
CN 115482382 A
3
专利 一种基于Transformer架构的图像语义分割方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:55:23上传分享