专利 基于Transformer与生成对抗网络的图像着色方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211247125.5 (22)申请日 2022.10.12 (71)申请人西安工程大学地址 710048 陕西省西安市碑林区金花南路19号 (72)发明人薛涛　马鹏森　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师王丹 (51)Int.Cl. G06T 11/00(2006.01) G06T 15/00(2011.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Transformer与生成对抗网络的图像着色方法 (57)摘要本发明公开了一种基于Tran sformer与生成对抗网络用于图像着色方法，使用生成对抗网络 GAN与Transformer，而不是单纯的使用卷积神经网络 C N N 来解决图像着色问题，提出的 Transformer‑GAN通过基于窗口的多头自注意力机制、计算资源友好的鉴别器减少过多的计算资源。局部增强前向传播网络和跳跃连接确保了浅层特征可以在网络中被有效地传输和利用，使得 Transformer‑GAN可以有效地捕获全局和局部信息之间的相关性。还通过数据增强、目标函数选择来探索最佳的训练过程，形成的彩色图像生成器和鉴别器使得Tran sformer‑GAN在图像彩色化方面表现良好。实现了最佳的视觉效果。权利要求书2页说明书5页附图3页 CN 115546338 A 2022.12.30 CN 115546338 A 1.基于Transformer与生成对抗网络的图像着色方法，其特征在于，该方法按照以下步骤实施，步骤1、构建基于生成对抗网络的图像着色模型，所述图像着色模型包括彩色图像生成器和鉴别器；所述彩色图像生成器用于生成彩色图像，所述鉴别器用于判断输入的图像是真实彩色图像或伪彩色图像；步骤2、将灰色图像输入所述图像着色模型的彩色图像生成器生成伪彩色图像；步骤3、分别更新鉴别器以及彩色图像生成器的参数：步骤3.1：首先固定彩色图像生成器的参数，将所述伪彩色图像以及所述灰色图像对应的真实彩色图像依次交替输入鉴别器，然后根据损失函数计算所述灰色图像对应的真实彩色图像与标签值为1之间的损失，以及根据损失函数计算所述灰色图像生成的伪彩色图像与标签值为0 之间的损失，最后利用反向传播算法，更新所述鉴别器的参数；其中标签值为 1 代表的是真实的图像，标签值为0代表的是生成的伪彩色图像；步骤3.2：固定鉴别器的参数，根据损失函数计算生成的伪彩色图像与标签值为1之间的损失，最后利用反向传播算法，更新所述彩色图像生成器的参数；步骤3.3：不断循环步骤3.1和步骤3.2更新鉴别器和彩色图像生成器参数的过程，直至损失值收敛，彩色图像生成器生成效果不错的伪彩色图像，即获得了优化后图像着色模型；步骤4、利用优化后的图像着色模型就直接对灰色图像进行着色。 2.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，步骤1中，所述彩色图像生成器中包含多个MWin ‑transformer模块，所述Mwin ‑ transformer模块的功能是提取和重建图像的特征，输出3通道有效彩色图像：所述Mwin ‑ transformer模块由三个核心部分组成：基于窗口的多头自注意力机制、层归一化操作LN和局部增强前向传播网络Le FF。 3.根据权利要求2所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述彩色图像生成器生成伪彩色图像的流程如下所示： X′＝Embedded Tokens(Xin) X″＝W‑MSA(LN(X))+X′ Xout＝LeFF(LN(X″))+X″ 其中， Xin表示输入，为灰色图像或伪彩色图像； Embedding Tokens表示将Xin转换成向量； X′表示将Xin输入进Embed ding Tokens得到的向量输出；然后将向量X ′进行层归一化后的结果LN(X ′)输入进基于窗口的多头自注意力机制W ‑ MSA得到提取了特征信息的向量，再与X ′相加得到汇聚了更多特征信息的向量X ″； X″表示将 X′输入进基于窗口的多头自注意力机制以及层归一化操作得到的输出；继续将向量X ″进行层归一化，将归一化后的LN(X ″)输入进局部增强前向传播网络得到提取了更多局部特征信息的向量，再与X ″相加得到汇聚了更多局部特征信息的向量Xout， Xout表示将X″输入进局部增强前向传播网络Le FF以及层归一化操作得到的输出。 4.根据权利要求3所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述层归一化操作的计算过程为:权　利　要　求　书 1/2 页 2 CN 115546338 A 2其中， LN层的作用对象是 X代表向量， μ 以及 δ 分别代表每个样本的均值和方差，和为仿射学习参数， dk是隐藏维度，表示该数是一个k维的向量。 5.根据权利要求3所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述基于窗口的多头自注意力机制如下：将伪彩色图像分成多个窗口，然后在这些不同的窗口中执行自注意力计算，由于一个窗口中的patch数远小于一幅图片中的所有小块数，并且窗口的数目保持不变，所以基于窗口的多头自注意力机制的计算复杂度与图像大小便由平方关系变成了成线性关系，大大降低了模型的计算复杂度。 6.根据权利要求2所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，将卷积添加到Mwin ‑transformer模块中的前向传播网络，从而形成局部增强前向传播网络LeFF。 7.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述损失函数为：其中，其中， G*表示损失函数之和，表示条件生成对抗网络损失，表示 Charbonnier损失， λ表示C harbonnier损失的权重系数； x表示输入的灰色图像； y表述输入的灰色图像对应的真实的彩色图像； log表示以2为底的对数函数；表示自变量为x,y；表示自变量为x； ε表示一个值为10‑3的常系数； || ||表示求绝对值。权　利　要　求　书 2/2 页 3 CN 115546338 A 3

专利 基于Transformer与生成对抗网络的图像着色方法

专利基于Transformer与生成对抗网络的图像着色方法