DMs[5] Analytic-DPM

填年前（12.20左右）的坑（把截图里的公式给敲完，顺便熟悉一下之前的内容）
摆了一整个寒假，唯一战果是一些拥有版权的封面图，比如上图：拍摄于东京新国立美术馆。
DDPM对应了diffusion SDE的maximum likelihood SDE solver，并且最优方差由Analytic-DPM来解析地给出。 maximum likelihood SDE solver: 某种一阶近似，而一阶近似其实存在无数种

回顾 DDIM

\begin{matrix} (1) & \begin{aligned} q (x_{1 : N} ∣ x_{0}) & = q (x_{N} ∣ x_{0}) \prod_{n = 2}^{N} q (x_{n - 1} ∣ x_{n}, x_{0}) \\ q (x_{N} ∣ x_{0}) & = N (x_{N} ∣ \sqrt{{\bar{α}}_{N}} x_{0}, {\bar{β}}_{N} I) \\ q (x_{n - 1} ∣ x_{n}, x_{0}) & = N (x_{n - 1} ∣ {\tilde{μ}}_{n} (x_{n}, x_{0}), λ_{n}^{2} I) \\ {\tilde{μ}}_{n} (x_{n}, x_{0}) & = \sqrt{{\bar{α}}_{n - 1}} x_{0} + \sqrt{{\bar{β}}_{n - 1} - λ_{n}^{2}} \cdot \frac{x_{n} - \sqrt{{\bar{α}}_{n}} x_{0}}{\sqrt{{\bar{β}}_{n}}} \end{aligned} \end{matrix}

从（1）中可以看出，DDIM 并没有显式定义前向过程，而是在保证 $q (x_{n} ∣ x_{0})$ 与 DDPM 中一样的情况下，定义了逆向过程 $q (x_{n - 1} ∣ x_{n}, x_{0})$ （事实上，这个值在 DDPM 的推导中也要用到，作为逆向过程的 baseline）。在这个框架下，DDIM 和 DDPM 分别是 $λ_{n}$ 取 0 和 $\frac{{\bar{β}}_{n - 1}}{{\bar{β}}_{n}} β_{n}$ 的特例。

因为其中有条件项 $x_{0}$ ，所以上面的都还只是前向过程，该过程的逆向过程（也就是只给定 $x_{n}$ 的生成过程）一般定义为马尔可夫过程：

\begin{matrix} (2) & \begin{array}{r} p (x_{0 : N}) = p (x_{N}) \prod_{n = 1}^{N} p (x_{n - 1} ∣ x_{n}), p (x_{n - 1} ∣ x_{n}) = N (x_{n - 1} ∣ μ_{n} (x_{n}), σ_{n}^{2} I), \end{array} \end{matrix}

其中，令 $μ_{n} (x_{n})$ 具有和 ${\tilde{μ}}_{n} (x_{n}, x_{0})$ 相同的形式，只需要通过 score function 首先预测出 $x_{0}$ 。

而对于逆向过程的 $σ_{n}$ ，DDIM 取 $λ_{n}$ ，而 DDPM 取 $β_{n}, {\tilde{β}}_{n}$ 。都是人为设计的。

均值方差的解析解

\begin{matrix} (3) & \begin{array}{r} min_{{μ_{n}, σ_{n}^{2}}_{n = 1}^{N}} L_{vb} ⟺ min_{{μ_{n}, σ_{n}^{2}}_{n = 1}^{N}} D_{KL} (q (x_{0 : N}) ∥ p (x_{0 : N})) . \end{array} \end{matrix}

作者证明了这个优化目标的解析解：

\begin{matrix} (4) & \begin{aligned} μ_{n}^{*} (x_{n}) & = {\tilde{μ}}_{n} (x_{n}, \frac{1}{\sqrt{α_{n}}} (x_{n} + {\bar{β}}_{n} \nabla_{x_{n}} \log q_{n} (x_{n}))), \end{aligned} \end{matrix}

\begin{matrix} (5) & \begin{aligned} σ_{n}^{* 2} & = λ_{n}^{2} + {(\sqrt{\frac{β_{n}}{α_{n}}} - \sqrt{β_{n - 1}} - λ_{n}^{2})}^{2} (1 - {\bar{β}}_{n} E_{q_{n} (x_{n})} \frac{∥ \nabla_{x_{n}} \log q_{n} (x_{n}) ∥^{2}}{d}) . \end{aligned} \end{matrix}

均值和原来的一样（也就是沿用 $q (x_{n - 1} ∣ x_{n}, x_{0})$ 是对的），但方差却有着不同的形式。

怎么求

$λ_{n}, β_{n}, α_{n}$ 这些其实都是定死的， $\nabla_{x_{n}} \log q_{n} (x_{n})$ 可以通过模型训练结果 $s_{n} (x_{n})$ 来估计，所以需要解决的只有 $E_{q_{n} (x_{n})}$ 。用一个 Monte Carlo 采样近似一下即可：

\begin{matrix} (6) & Γ_{n} = \frac{1}{M} \sum_{m = 1}^{M} \frac{{‖ s_{n} (x_{n, m}) ‖}_{2}^{2}}{d}, x_{n, m} \overset{i i d}{\sim} q_{n} (x_{n}) \end{matrix}

写成表达式就长这样：

\begin{matrix} (7) & {\hat{σ}}_{n}^{2} = λ_{n}^{2} + {(\sqrt{\frac{{\bar{β}}_{n}}{α_{n}}} - \sqrt{{\bar{β}}_{n - 1} - λ_{n}^{2}})}^{2} (1 - {\bar{β}}_{n} Γ_{n}) \end{matrix}

实验证明，M 取 10、100 也能获得不错的效果。

上下界

\begin{matrix} (8) & \begin{array}{r} | σ_{n}^{* 2} - {\hat{σ}}_{n}^{2} | = \underset{Coefficient}{\underset{⏟}{{(\sqrt{\frac{β_{n}}{α_{n}}} - \sqrt{β_{n - 1}} - λ_{n}^{2})}^{2}}} \underset{Approximation error}{\underset{⏟}{{\bar{β}}_{n} | Γ_{n} - E_{q_{n} (x_{n})} \frac{∥ \nabla_{x_{n}} \log q_{n} (x_{n}) ∥^{2}}{d} |}} . \end{array} \end{matrix}

方差的估计值和最优值的 bias （？）如上。注意到 approximation error 其实是固定的，而较短的去躁路径会导致系数项很大。为此，作者推导出了最优方差理论解的上下界，来对估计值进行裁切（上下界可以较为准确地计算，这样在实际计算方差时，可以直接算上下界），详见原论文。

路径最优化

对于 DDIM 中 $1 = τ_{1} < \dots < τ_{K} = N$ ，共 $K$ 个时间步的跳步，其均值、方差的最优解解析式如下：

\begin{matrix} (9) & \begin{aligned} μ_{τ_{k} - 1 | τ_{k}}^{*} (x_{τ_{k}}) = {\tilde{μ}}_{τ_{k} - 1 | τ_{k}} (x_{τ_{k}}, \frac{1}{\sqrt{α_{τ_{k}}}} (x_{τ_{k}} + {\bar{β}}_{τ_{k}} \nabla_{x_{τ_{k}}} \log q (x_{τ_{k}}))) \\ σ_{τ_{k} - 1 | τ_{k}}^{* 2} = λ_{τ_{k} - 1 | τ_{k}}^{2} + {(\sqrt{\frac{β_{τ_{k}}}{α_{τ_{k}}}} - \sqrt{β_{τ_{k} - 1}} - λ_{τ_{k} - 1 | τ_{k}}^{2})}^{2} (1 - {\bar{β}}_{τ_{k}} E_{q (x_{τ_{k}})} \frac{∥ \nabla_{x_{τ_{k}}} \log q (x_{τ_{k}}) ∥^{2}}{d}) . \end{aligned} \end{matrix}

相较于之前的算法，这里对于固定的 ${τ_{i}}$ 可以写出解析解，那么我们就可以进一步求解最优的 ${τ_{i}}$ ：

\begin{matrix} (10) & min_{τ_{1}, \dots, τ_{K}} D_{KL} (q (x_{0}, x_{τ_{1}}, \dots, x_{τ_{K}}) ∥ p^{*} (x_{0}, x_{τ_{1}}, \dots, x_{τ_{K}})) = \frac{d}{2} \sum_{k = 2}^{K} J (τ_{k - 1}, τ_{k}) + c . \end{matrix}

其中， $J (τ_{k - 1}, τ_{k}) = \log (σ_{τ_{k - 1} ∣ τ_{k}}^{* 2} / λ_{τ_{k - 1} ∣ τ_{k}}^{2})$ ，注意以下几点：

c 是一个和路径选择无关的常量
可以通过MC来估计 $σ^{*}$ ，从而使得 $J (τ_{k - 1} ∣ τ_{k})$ 可计算

因此，这个问题就是一个计算 $1 \to N$ 的最短路径的 DP 问题。

DPM-Solver

基本是跟着这篇文章读论文的，这里就不复述了。Take away message：将原本的微分方程，在一系列近似的基础上写成确定解的形式，从而摆脱了步长对误差的影响。如图中蓝线所示，步长会放大 $d x_{t} / d t$ 的误差，而改用 DPM-Solver 之后，误差可以看作是确定解基础上的偏移，与步长无关。