(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211247125.5
(22)申请日 2022.10.12
(71)申请人 西安工程大 学
地址 710048 陕西省西安市碑林区金花 南
路19号
(72)发明人 薛涛 马鹏森
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 王丹
(51)Int.Cl.
G06T 11/00(2006.01)
G06T 15/00(2011.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于Transformer与生成对抗网络的图像着
色方法
(57)摘要
本发明公开了一种基于Tran sformer与生成
对抗网络用于图像着色方法, 使用生成对抗网络
GAN与Transformer, 而不是单纯的使用卷积神经
网 络 C N N 来 解 决 图 像 着 色 问 题 , 提 出 的
Transformer‑GAN通过基于窗口的多头自注意力
机制、 计算 资源友好的鉴别器减少过多的计算资
源。 局部增强前向传播网络和跳跃连接确保了浅
层特征可以在网络中被有效地传输和利用, 使 得
Transformer‑GAN可以有效地捕获全局和局部信
息之间的相关性。 还通过数据增强、 目标函数选
择来探索最佳的训练过程, 形成的彩色图像生成
器和鉴别器使得Tran sformer‑GAN在图像彩色化
方面表现良好。 实现了最佳的视 觉效果。
权利要求书2页 说明书5页 附图3页
CN 115546338 A
2022.12.30
CN 115546338 A
1.基于Transformer与 生成对抗网络的图像着色方法, 其特征在于, 该方法按照以下步
骤实施,
步骤1、 构建基于生成对抗网络的图像着色模型, 所述图像着色模型包括彩色图像生成
器和鉴别器; 所述彩色图像生成器用于生成彩色图像, 所述鉴别器用于判断输入的图像是
真实彩色图像或伪彩色图像;
步骤2、 将灰色图像输入所述图像着色模型的彩色图像生成器生成伪彩色图像;
步骤3、 分别更新 鉴别器以及彩色图像生成器的参数:
步骤3.1: 首先固定彩色图像生成器的参数, 将所述伪彩色图像以及所述灰色图像对应
的真实彩色图像依次交替输入鉴别器, 然后根据损失函数计算所述灰色图像对应的真实彩
色图像与标签值为1之间的损失, 以及根据损失函数计算所述灰色图像生成的伪彩色图像
与标签值为0 之间的损失, 最后利用反向传播算法, 更新所述鉴别器的参数; 其中标签值为 1
代表的是真实的图像, 标签值 为0代表的是生成的伪彩色图像;
步骤3.2: 固定鉴别器的参数, 根据损失函数计算生成的伪彩色图像与标签值为1之间
的损失, 最后利用反向传播 算法, 更新所述彩色图像生成器的参数;
步骤3.3: 不断循环步骤3.1和步骤3.2更新鉴别器和彩色图像生成器参数的过程, 直至
损失值收敛, 彩色图像生成器生成效果 不错的伪彩色图像, 即获得了优化后图像着色模型;
步骤4、 利用优化后的图像着色模型就 直接对灰色图像进行着色。
2.根据权利要求1所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 步骤1中, 所述彩色图像生成器中包含多个MWin ‑transformer模块, 所述Mwin ‑
transformer模块的功能是提取和重建图像的特征, 输出3通道有效彩色图像: 所述Mwin ‑
transformer模块由三个核心部分组成: 基于窗口的多头自注 意力机制、 层归一化操作LN和
局部增强前向传播网络Le FF。
3.根据权利要求2所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 所述彩色图像生成器生成伪彩色图像的流 程如下所示:
X′=Embedded Tokens(Xin)
X″=W‑MSA(LN(X))+X′
Xout=LeFF(LN(X″))+X″
其中, Xin表示输入, 为灰色图像或伪彩色图像;
Embedding Tokens表示将Xin转换成向量;
X′表示将Xin输入进Embed ding Tokens得到的向量输出;
然后将向量X ′进行层归一化后的结果LN(X ′)输入进基于窗口的多头自注意力机制W ‑
MSA得到提取了特征信息的向量, 再与X ′相加得到汇聚了更多特征信息的向量X ″; X″表示将
X′输入进基于窗口 的多头自注意力机制以及 层归一化操作得到的输出;
继续将向量X ″进行层归一化, 将归一化后的LN(X ″)输入进局部增强前向传播网络得到
提取了更多局部特征信息的向量, 再与X ″相加得到汇聚了更多局部特征信息的向量Xout,
Xout表示将X″输入进局部增强前向传播网络Le FF以及层归一化操作得到的输出。
4.根据权利要求3所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 所述层归一 化操作的计算过程 为:权 利 要 求 书 1/2 页
2
CN 115546338 A
2其中, LN层的作用对象是
X代表向量, μ 以及 δ 分别代表每个样本的均值和方差,
和
为仿射学习参数, dk是隐藏维度,
表示该数是一个k维的向量。
5.根据权利要求3所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 所述基于窗口 的多头自注意力机制如下:
将伪彩色图像分成多个窗口, 然后在这些不同的窗口中执行自注意力计算, 由于一个
窗口中的patch数远小于一幅图片中的所有小块数, 并且窗口的数目保持不变, 所以基于窗
口的多头自注意力机制的计算复杂度与图像大小便由平方关系变成了成线性关系, 大大降
低了模型的计算复杂度。
6.根据权利要求2所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 将卷积添加到Mwin ‑transformer模块中的前向传播网络, 从而形成局部增强前向传播
网络LeFF。
7.根据权利要求1所述的基于Transformer与 生成对抗网络的图像着 色方法, 其特征在
于, 所述损失函数为:
其中,
其中, G*表示损失函数之和,
表示条件生成对抗网络损失,
表示
Charbonnier损失, λ表示C harbonnier损失的权 重系数;
x表示输入的灰色图像;
y表述输入的灰色图像对应的真实的彩色图像;
log表示以2为底的对数函数;
表示自变量 为x,y;
表示自变量 为x;
ε表示一个值为10‑3的常系数;
|| ||表示求绝对值。权 利 要 求 书 2/2 页
3
CN 115546338 A
3
专利 基于Transformer与生成对抗网络的图像着色方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:57:30上传分享