专利 一种基于全知网络的压缩视频质量增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211132048.9 (22)申请日 2022.09.16 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人叶茂　彭柳寒　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师周刘英 (51)Int.Cl. G06T 5/00(2006.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) H04N 19/85(2014.01) H04N 19/42(2014.01) (54)发明名称一种基于全知网络的压缩视频质量增强方法 (57)摘要本发明公开一种基于全知网络的压缩视频质量增强方法，属于图像处理技术领域。本申请包括：首先通过使用时空特征融合模块聚合2R+1 视频帧的时空信息来初始化当前帧的特征。然后，使用类似网格状结构的网络来实现特征的双向传播，并最大程度的利用整个视频的时空信息。在类似网格状结构的网络中对特征反复迭代求精，并生成多个不同的隐藏特征。最后，融合所有隐藏特征，并将它放入到质量增强网络络中进一步学习帧内全频域信息，产生增强残差。最终增强帧由压缩帧加上增强残差组成。本发明提出了一种完全利用整个视频时空信息和全频域信息进行压缩视频多帧质量增强的方法，本发明使得视频主客观质量明显提高，同时带来了码率的降低。权利要求书2页说明书10页附图4页 CN 115496683 A 2022.12.20 CN 115496683 A 1.一种基于全知网络的压缩视频质量增强方法，其特征在于，包括下列步骤：步骤1，设置及训练全知网络；所述全知网络包括时空特征融合模块和全频自适应增强块，其中，时空特征融合模块用于聚合多个帧的时空信息，全频自适应增强块用于学习帧内的全频信息，所述全知网络包括多条支路，用于对指定长度的压缩视频序列进行质量增强处理，每条支路依次输入一帧视频帧，每条支路依次包括：一个时空特征融合模块，多层特征提取网络和一层质量增强网络，每条支路的输入视频帧与质量增强网络输出的增强视频帧相加得到最终的增强视频帧；每条支路的第一个空特征融合模块用于学习当前支路的输入视频帧的前后R帧相邻帧以及自身的时空信息并生成当前支路的初始特征， R为正整数；特征提取网络包括一个时空特征融合模块和一个全频自适应增强块，时空特征融合模块的输出与特征提取网络的输入沿通道维度拼接，再输入全频自适应增强块，全频自适应增强块的输出与其输入沿通道维度拼接得到特征提取网络的输出；所有支路的所有特征提取网络组成全特征增强网络，各条支路的初始特征在所述全特征增强网络中传播，先进行反向传播，再前向传播，如此迭代多轮后，得到每条支路的特征图并输入质量增强网络；质量增强网络包括两个卷积层和位于两个卷积层中间的多个全频自适应增强块；通过采集的训练数据对全知网络进行端到端的训练，得到训练好的全知网络；步骤2，对将待增强的压缩视频序列输入训练好的全知网络，基于其输出得到对应的增强视频帧序列。 2.如权利要求1所述的方法，其特征在于，每条支路包括 4层特征提取网络。 3.如权利要求1所述的方法，其特征在于，每条支路的质量增强网络包括5个全频自适应增强块。 4.如权利要求1所述的方法，其特征在于，时空特征融合模块依次包括：卷积层1、 U型网络、卷积层2和可变形卷积层，且卷积层1的输入还输入至可变形卷积层。 5.如权利要求1所述的方法，其特征在于，时空特征融合模块的U型网络依次包括：三层下采样层和两个选择性核特征融合SKFF模块，且第一层下采样层的输出还输入至最后一个 SKFF模块，第而层下采样层的输出还输入至第一个SKFF模块，所述SKFF模块基于注意力机制学习各尺度的特征的权重，以加权和的方式对不同尺度的特征进行融合。 6.如权利要求1所述的方法，其特征在于，全频自适应增强块包括三条支路：第一支路依次包括下采样层和卷积层；第二支路依次包括下采样层、选择性核特征融合SKFF模块和卷积层，且第二支路的下采样层的输出与第一支路的下采样层的输出的上采样结果相减后再输入第二支路的SKFF 模块，第一支路的卷积层的输出还输入至第二支路的SKFF模块；所述SKFF模块基于注意力机制学习各尺度的特征的权重，以加权和的方式对不同尺度的特征进行融合；第三支路依次包括卷积层1、 SKFF模块、卷积层2和通道注意力网络，且第三支路的卷积层1的输出与第二支路的下采样层的输出的上采样结果相减后再输入第一支路的SKFF模块，第二支路的卷积层的输出还输入至第三支路的SK FF模块；全频自适应增强块的输入通过卷积层与第三支路的输出相加作为全频自适应增强块权　利　要　求　书 1/2 页 2 CN 115496683 A 2的输出。 7.如权利要求1所述的方法，其特征在于，对全知网络进行端到端的训练时采用的损失函数loss为：其中，表示全知网络输出的增强视频帧，表示原始视频帧样本， ∈表示预设的常数，取值为(0， 1)， i表示视频序列样本的视频帧编号， n表示视频序列样本的帧数。权　利　要　求　书 2/2 页 3 CN 115496683 A 3

专利 一种基于全知网络的压缩视频质量增强方法

专利一种基于全知网络的压缩视频质量增强方法