Seikai in Void

Back

Image Super-Resolution Generatioon - A SurveyBlur image

Adversarial Diffusion Compression for Real-World Image Super-Resolution#

超高分辨率现实场景图片生成领域当下的主流方法可以分为两大类:

  • GAN-based, 但是依然没有克服GAN模型本身生成不稳定的缺陷,并且恢复质量受限于退化建模的准确性。
  • diffusion-based,生成的可控性与稳定性更高,但是一方面推理速度慢(需要经历大量timestep),一方面由于参数量大,对计算资源要求较高。 综合来看,加速扩散模型推理是一个在Real-ISR领域相对而言更加可行的研究方向,故先将重心聚焦在diffusion-based方法上。

现有的diffusion-based方法的有这几个:

  • SinSR,基于知识蒸馏将原本需要15步的ResShift蒸馏为只需要一步生成的学生模型。但是生成细节不足,有时会导致over-smooth的情况,可能失去高频纹理细节。无法恢复复杂退化场景的细节。
  • OSEDiff (原sota):采用变分分数蒸馏,兼顾了推理速度和生成质量,但是依赖大规模预训练SD模型,参数量很大,需要较多资源。 因此自然可以想到一种解决方案:做减法,将SD框架中的冗余部分去除;同时改进训练手段,保持生成质量。做减法,将SD框架中的冗余部分去除;同时改进训练手段,保持生成质量。

解决方法:

做减法,删除冗余部件#

如论文中原图Fig.1,删除原VAE encoder,time step embedding,Prompt Extractor等不需要的部件,只保留U-net与VAE decoder。对于单步推理生成ISR,时间步骤可以视作相同的嵌入,因此不需要额外引入模块;此外文本提示对生成结果也意义不大,故可去除;通过其他手段来代替vae encoder,这部分部件也去除。

做微调,特化剩余部件#

传统的下采样策略(卷积,pooling)会导致LR图像失去例如纹理和边缘细节等对于Real-iSR也许非常重要的特征,因此提出只通过PixelUnshuffle 重构像素排列,将原本H×W×CH \times W \times C的图像按照s×ss\times s 的块展开成Hs×Ws×C×s2\frac{H}{s}\times \frac{W}{s} \times C\times s^2,减小长宽维度,增加通道数。这部分操作代替了原本的VAE-encoder功能,能最大限度保留LR原始特征,同时不会引入额外计算负担。

针对U-net内部与VAE-decoder,也做了内部优化,以适应额外增多的通道。

新的训练框架#

1)第一阶段先只预训练vae decoder,采用L1范数计算解码器的重构损失。 2)第二阶段包括对教师模型(OSEDiff)的知识蒸馏与对抗学习。对于教师模型,计算对于一张LR图像教师模型与学生模型(AdcSR)给出的特征图的差的L1范数。对抗学习,将一个冻结的预训练好的SD-Unet作为discriminator,引导学生模型给出的表示能够欺骗discriminator(接近高分辨率图像的表示)。整体损失优化如下:C=Ldistill+λadvLadvC = L_{\text{distill}} + \lambda_{\text{adv}} L_{\text{adv}}

Image Super-Resolution Generatioon - A Survey
https://astro-pure.js.org/blog/%E9%AB%98%E5%88%86%E8%BE%A8%E7%8E%87diffusion
Author Void / 无我
Published at March 10, 2025
Comment seems to stuck. Try to refresh?✨