InvSR

MallocSimenons9/24/25About 6 min

InvSR

Paper
Github Repo

Overview

Diffusion 用于图像超分一般有两种思路：

Diffusion Prior for SR. 即在原本的 pipeline 上进行微调，比如通过 text prompt 或者退化类型，来指导模型进行超分；
Diffusion Inversion. 回顾一张图片的生成过程，从随机高斯噪声 $z_{T}$ 开始，通过 $x_{t - 1} = μ_{θ} (x_{t}, t) + σ_{t} ϵ_{t}, ϵ_{t} \sim N (0, I)$ 的迭代去噪过程，得到最终的图像。Inversion 的思路是，如果能够知道 $x_{T}$ 以及每一步的噪声 $ϵ_{t}$ （noise map $M$ ），那么就可以建模出 HR 图像的生成过程，从而实现超分。

本文属于后者，且将 noise map 缩减到了 $z_{T}$ ，并实现了跳步采样。

在正式开始看 Method 之前，建议先回顾一下如下几点

等价预测模型的推导

最初的起点为 $p (x_{t - 1} ∣ x_{t}, x_{0})$

\begin{matrix} (1) & x_{t - 1} = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) {\hat{x}}_{0}}{1 - {\bar{α}}_{t}} + σ_{t} ϵ_{t} \end{matrix}

通过前向过程的定义:

\begin{matrix} (2) & x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + (1 - {\bar{α}}_{t}) ϵ, {\hat{x}}_{0} = \frac{x_{t} - (1 - {\bar{α}}_{t}) \hat{ϵ}}{\sqrt{{\bar{α}}_{t}}} \end{matrix}

代入即得到噪声预测的形式

噪声项的不同含义

这里需要区分两个 $ϵ$ ， $ϵ_{t}$ 表示的是以 $x_{t}$ 预测 $x_{t - 1}$ 时，这个高斯分布所取的噪声；而 $\hat{ϵ}$ 则表示的是从 $x_{0} \to x_{t}$ 的噪声，二者含义不同，但都服从标准高斯分布

跳步推理的实现

关于跳步，之前的一个疑惑是，在不同的步长设定下，为什么相同的采样公式能够得到不同的跳步结果。这里引用苏神关于 DDIM 的解读，简单来说，DDPM 的训练包含了任意子序列的训练过程，所以无需重新训练，即可在子序列上进行跳步采样；但与原本的全长序列相比，子序列的 $α_{t}$ 需要通过 $\frac{{\bar{α}}_{t}}{{\bar{α}}_{t - 1}}$ 重新进行定义，正是重新定义的 $α_{t}$ 带来了不同步长下的不同结果。

Method

相比于最原始的 Diffusion Inversion，作者做了如下几点改进：

终点提前

理论上，终点 $T$ 可以是任意时间步。而 LR 与 HR 图片仅在最后一段时间步上存在较大差异（高频细节），所以可以将 LR、HR 去噪路径开始分歧的点 $N < T$ 作为终点，从而减小了 noise map 的大小。

跳步采样

由于是 Diffusion Inversion，生成 HR 的是标准的 diffusion 去噪，所以可以沿用已有的跳步方法，例如 DDIM 等。实践中，使用 $M \leq 5$ 步即可。

仅预测 $x_{N}$

这里原文似乎混淆了两种 $ϵ$ ，而将所有高斯噪声都用 $f_{w} (\cdot, \cdot)$ 来表示。由于具有不同的含义，例如（6）式中表示 $x_{t} \to x_{t - 1}$ 的噪声，而（8）表示 $x_{0} \to x_{T}$ 的噪声，实际上模型应该很难训练，毕竟这两种情形只有时间步参数的差异，因此这里对 $x_{t} \to x_{t - 1}$ 噪声采用 $h$ 记号以示区分。同时，基于 $x_{0}$ 和 $y_{0}$ 进行前向过程，预测 $x_{0}$ 的中间状态，噪声也应该是不一样的，对于使用 $x_{0}$ 计算前向过程时预测的噪声（10），记作 $f^{'}$ .

按照 Diffusion Inversion 的基本思路，我们需要预测两项：

相邻时间步采样中的噪声项 $h_{w}$ ：
$\begin{matrix} (3) & x_{κ_{i - 1}} = g_{θ} (x_{κ_{i}}) + σ_{κ_{i}} h_{w} (y_{0}, κ_{i - 1}) \end{matrix}$
终点 $x_{κ_{M}}$ 。由于 HR $x_{0}$ 无法获得，所以无法通过前向过程，预测 $x_{0} \to x_{κ_{M}}$ 的噪声来预测 $x_{κ_{M}}$ ；但是，由于在 $x_{κ_{M}}$ 处 HR 与 LR 的 latent 才开始 derive，因此非常相近，所以可以从 $y_{0}$ 出发进行前向过程：
$\begin{matrix} (4) & x_{κ_{M}} = \sqrt{{\bar{α}}_{κ_{M}}} y_{0} + \sqrt{1 - {\bar{α}}_{κ_{M}}} f_{w} (y_{0}, κ_{M}) \end{matrix}$
至于其中的细微差别，则完全可以由网络 $f_{w} (y_{0}, κ_{M})$ 学到，只不过这会导致它不再服从 $N (0, I)$

最终发现，需要预测的都是噪声项。有了这两项，就可以先预测 $x_{κ_{M}}$ ，再迭代去噪得到 $x_{0}$

进一步，在训练中需要对齐 ${\hat{x}}_{0 \leftarrow κ_{i}}$ 与 ground truth $x_{0}$ ， $0 \leftarrow κ_{i}$ 可以通过预训练的 diffusion 模型 predict $x_{0}$ （即（2）式）得到，但 $x_{κ_{i}}$ 却需要在先前定义的流程中多次迭代。而实际上，在 $x_{0}$ 的整个路径上，原本的做法是先预测终点，再逆向迭代，我们还可以通过等价（反正都是预测值，理论上等价即可）的前向过程得到：

\begin{matrix} (5) & x_{κ_{i}} = \sqrt{{\bar{α}}_{κ_{i}}} x_{0} + \sqrt{1 - {\bar{α}}_{κ_{i}}} f_{w}^{'} (y_{0}, κ_{i}) \end{matrix}

至此，需要预测的都是 $x_{0} \to x_{t}$ 的前向噪声，但由于各自基于 $x_{0}, y_{0}$ ，所以均值有所差别。

之所以说是混用，是因为在作者的逻辑中，对 $f_{w}^{'}$ 代替了基本思路中 $h_{w}$ 的训练，而在 inference 中，是需要用到 “相邻时间步采样中的噪声项” $h_{w}$ 来进行迭代的，经过上述简化，就没法 inference 了。（不过最终算法里也用不到）

最后，也是和其他工作差别最大（maybe）的一点改进，作者不再预测服从标准高斯分布的 $h_{w} (y_{0}, κ_{i})$ ，而是改用随机噪声 $z \sim N (0, I)$ 。原因就有点迷了。首先，如果要严格还原 $x_{0}$ ，一定要精确预测出每一步迭代的 noise，但是，作者认为小时间步限定下噪声水平小、diffusion 模型预测相对稳定（robust）、迭代预测反而会导致累积误差，所以舍弃了预测中间迭代步骤的噪声 $h_{w} (y_{0}, κ_{i})$ 。

至此，noise map 被缩减到 $M = {z_{κ_{M}}}$ ，训练时只需要在预定义的起点 set $S \subseteq {κ_{1}, \dots κ_{M}}$ 中选取一点通过（4）式计算 $x_{κ_{i}}$ ，再对齐 ${\hat{x}}_{0 \leftarrow κ_{i}}$ 与 $x_{0}$ 即可；推理过程同理，只需要使用 $f_{w}$ 预测噪声，通过前向过程计算出 HR 的中间表示，再无参数化地逆向去噪。

REVIEW:
结合中间稍显混乱的设计心路历程，给人的感觉是先尝试了预测 HR 中间表示，然后逆向不预测（这是许多其他文章的缺陷），然后补上了这段故事；或者是我对模型训练的理解有问题，即：如果使用同一个网络预测，那么不同参数下的预测值的实际含义应该是统一的，而不能做到 $f (a)$ 预测 a 的年龄， $f (b)$ 预测 b 的身高。
实际上，即使明确了这些 noise 具有不同的含义，无法使用同一个网络进行预测，依然可以得出一个通顺的逻辑：只需要删掉 Model Trainig 使得 inference 无法进行的那一段，如果截至这一段，会没发 inference，且最终算法也没用到。
To check：Model Training 中的（5）应该没有被用过？

InvSR

InvSR

Overview

Method

终点提前

跳步采样

仅预测 xN

仅预测 $x_{N}$