DMs[1] DPM

MallocSimenons11/16/24About 19 min

DMs[1] DPM

Overview

Figure 1: Architecture of VDM. — **Figure 1**: Architecture of VDM.

VDM 的原理与 MHVAE 非常类似，可以看作是在 MHVAE 的基础上添加了如下 3 个限制条件得到：

隐变量 $z_{i}$ 的维度与输入输出 $x$ 的维度一致。因此，不再使用 $z_{i}$ ，而统一使用 $x_{i} (0 ⩽ i ⩽ T)$ 来表示所有的变量。
编码器 $q (x_{t} | x_{t - 1})$ 不再是通过神经网络学习的过程，而是一个固定的高斯线性变换。
通过为编码器的一系列高斯线性变换设置系数，使得最终的 $x_{T}$ 收敛到 $N (0, I)$ 。

前向过程

给定一个真实输入 $x_{0}$ ，通过逐步添加噪声，最终得到 $x_{T} \sim N (0, I)$ ，因此也叫作扩散过程。整个模型的后验分布可以写作：

\begin{matrix} (1) & q (x_{1 : T} | x_{0}) = \prod_{t = 1}^{T} q (x_{t} | x_{t - 1}) \end{matrix}

而由于编码器不再是一个参数化的过程，所以 $q (x_{t} | x_{t - 1})$ 可以用公式明确给出：

\begin{matrix} (2) & q (x_{t} | x_{t - 1}) = N (\sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I) \end{matrix}

逆向过程

从随机高斯噪声 $x_{T}$ 开始，逐步还原出有意义的数据。整个模型的联合概率可以写作：

\begin{matrix} (3) & p (x_{0 : T}) = p (x_{T}) \prod_{t = T - 1}^{0} p (x_{t} | x_{t + 1}) \end{matrix}

其中，根据模型假设，我们知道 $p (x_{T}) \sim N (0, I)$ 。那么，我们能否直接给出 $p (x_{t} | x_{t + 1})$ 的表达式呢？

\begin{matrix} (4) & \begin{aligned} p (x_{t} | x_{t + 1}) & = \frac{q (x_{t + 1} | x_{t}) \cdot p (x_{t})}{p (x_{t + 1})} 贝 叶 斯 定 理 \\ = \frac{q (x_{t + 1} | x_{t}) \cdot p (x_{t})}{\int q (x_{t + 1} | x_{t}) p (x_{t}) d x_{t}} 利 用 x_{t + 1} 对 x_{t} 的 条 件 概 率 求 出 p (x_{t + 1}) \end{aligned} \end{matrix}

观察其中的各项：

$q (x_{t + 1} | x_{t})$ ：该项是前向过程的加噪过程，可以写出表达式；
$p (x_{t})$ ：该项表示了 $t$ 时样本的边缘概率密度函数，可以从 $p (x_{0})$ 迭代计算得到。但 $p (x_{0})$ 对逆向过程来说不可知（即便是通过采样来模拟）；
$\int q (x_{t + 1} | x_{t}) p (x_{t}) d x_{t}$ ：该项表示了 $t + 1$ 时样本服从的概率密度函数，需要对 $x_{t}$ 的各种取值进行遍历积分，对于图像来说，这显然不可行。

因此，我们没法直接给出 $p (x_{t} | x_{t + 1})$ 的表达式。而扩散模型借助参数化近似（如神经网络）来学习逆过程分布。

另一种想法是，基于 (2)，对其进行重参数化，可以得到：
$x_{t} = \sqrt{α_{t}} x_{t - 1} + (1 - α_{t}) ϵ$
移项之后，不就可以得出 $p (x_{t} ∣ x_{t + 1})$ 了吗？
这里搬一下路橙大佬的解答，（目前get的）大致意思是：高斯分布对应的重参数化结果 $x_{t} = f (x_{t - 1}, ϵ)$ 中，这两个变量应当是相互独立的，而反解结果中， $x_{t}$ 与 $ϵ$ 不再独立，所以即使写成了重参数化形式，也不能逆推回高斯分布。而这里的 $ϵ (x_{t})$ 也是具有实际含义的，它就是 DDPM 想要预测的噪声 ${\hat{ϵ}}_{θ} (x_{t}, t)$

ELBO

Vanilla ELBO

VDM 可以通过最大化 ELBO 来进行优化：

\begin{matrix} (5) & \begin{array}{r} \begin{aligned} \ln p (x_{0}) & = \ln \int p (x_{0 : T}) d x_{1 : T} 边 际 化 \\ = \ln \int \frac{p (x_{0 : T}) q (x_{1 : T} | x_{0})}{q (x_{1 : T} | x_{0})} d x_{1 : T} \\ = \ln E_{q (x_{1 : T} | x_{0})} [\frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] \\ \geq E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] 原始的ELBO \\ \dots \dots \\ 此 处 省 略 若 干 推 导 过 程 \\ \dots \dots \\ = \begin{aligned} \underset{reconstruction term}{\underset{⏟}{E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})]}} & - \underset{prior matching term}{\underset{⏟}{E_{q (x_{T - 1} | x_{0})} [D_{KL} (q (x_{T} | x_{T - 1}) | | p (x_{T}))]}} \\ - \sum_{t = 1}^{T - 1} \underset{consistency term}{\underset{⏟}{E_{q (x_{t - 1}, x_{t + 1} | x_{0})} [D_{KL} (q (x_{t} | x_{t - 1}) | | p_{θ} (x_{t} | x_{t + 1}))]}} \end{aligned} \end{aligned} \end{array} \end{matrix}

最终得到的 ELBO 由如下 3 项构成：

$E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})]$ ：重建项，其含义同 AEs 中的重建项，表示了给定一步扩散过程的情况下，模型重建出原始输入 $x_{0}$ 的能力。
$E_{q (x_{T - 1} | x_{0})} [D_{KL} (q (x_{T} | x_{T - 1}) | | p (x_{T}))]$ ：先验匹配项，其含义同 AEs 中的先验匹配项，表示了前向过程 $q$ 得出的 $x_{T}$ 分布与其先验分布 $p (x_{T})$ 的匹配程度。但是，由于这一项不含可学习的参数，再加上当 $T$ 足够大时， $p (x_{T}) = N (x_{T}; 0, I)$ ，这一项自然为0，所以并不需要对其进行优化。
因为当 $T$ 足够大时， $α_{T} \to 0$ ，所以无论 $x_{T - 1}$ 取值为何， $q (x_{T} | x_{T - 1}) = N (x_{T}; \sqrt{α_{T}} x_{T - 1}, (1 - α_{T}) I)$ 都趋向于 $q (x_{T} | x_{T - 1}) = N (x_{T}; 0, I)$
$E_{q (x_{t - 1}, x_{t + 1} | x_{0})} [D_{KL} (q (x_{t} | x_{t - 1}) | | p_{θ} (x_{t} | x_{t + 1}))]$ ：一致项，使得前向过程由 $x_{t - 1}$ 生成的 $x_{t}$ 和逆向过程由 $x_{t + 1}$ 生成的 $x_{t}$ 的尽可能相似。
Figure 2: Depiction of consistency term.

如果对 $E_{q (x_{1} | x_{0})}$ 这种形式的期望的实际含义感到困惑，那么就先看看 AEs 中的相关解释吧。实际上， $E_{x_{1} \sim q (x_{1} ∣ x_{0})}$ 可以通过随机采样来模拟。

因为最终 ELBO 中待优化的项都是期望的形式，所以可以通过 MCMC 近似求解。但是，如果直接对 (5) 中的式子进行优化，可能会导致困难。因为其中的一致项需要同时对两个随机变量 $x_{t - 1}, x_{t + 1}$ 进行采样，这会产生更大的方差，导致优化过程不稳定，不容易收敛。

Improved ELBO

由于 VDM 的马尔可夫特性，有 $q (x_{t} | x_{t - 1}) = q (x_{t} | x_{t - 1}, x_{0})$ ，再通过贝叶斯定理，有：

\begin{matrix} (6) & \begin{aligned} q (x_{t} ∣ x_{t - 1}, x_{0}) & = \frac{q (x_{t}, x_{t - 1}, x_{0})}{q (x_{t - 1}, x_{0})} \\ = \frac{q (x_{t - 1} ∣ x_{t}, x_{0}) \cdot q (x_{t}, x_{0})}{q (x_{t - 1}, x_{0})} \\ = \frac{q (x_{t - 1} ∣ x_{t}, x_{0}) \cdot q (x_{t} ∣ x_{0})}{q (x_{t - 1} ∣ x_{0})} \end{aligned} \end{matrix}

将（6）式代入 ELBO 的推导，可得：

\begin{matrix} (7) & \begin{array}{r} \begin{aligned} \ln p (x) & \geq E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] \\ = \begin{aligned} \underset{reconstruction term}{\underset{⏟}{E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})]}} & - \underset{prior matching term}{\underset{⏟}{D_{KL} (q (x_{T} | x_{0}) ∣ p (x_{T}))}} \\ - \sum_{t = 2}^{T} \underset{denoising matching term}{\underset{⏟}{E_{q (x_{t} | x_{0})} [D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) ∣ p_{θ} (x_{t - 1} | x_{t}))]}} \end{aligned} \end{aligned} \end{array} \end{matrix}

expand to see detailed derivation

可以不会推导，但至少要能看懂吧

\begin{array}{r} \begin{aligned} \ln p (x) & \geq E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{0 : T})}{q (x_{1 : T} | x_{0})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} | x_{t})}{\prod_{t = 1}^{T} q (x_{t} | x_{t - 1})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1}) \prod_{t = 2}^{T} p_{θ} (x_{t - 1} | x_{t})}{q (x_{1} | x_{0}) \prod_{t = 2}^{T} q (x_{t} | x_{t - 1})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1}) \prod_{t = 2}^{T} p_{θ} (x_{t - 1} | x_{t})}{q (x_{1} | x_{0}) \prod_{t = 2}^{T} q (x_{t} | x_{t - 1}, x_{0})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p_{θ} (x_{T}) p_{θ} (x_{0} | x_{1})}{q (x_{1} | x_{0})} + \ln \prod_{t = 2}^{T} \frac{p_{θ} (x_{t - 1} | x_{t})}{q (x_{t} | x_{t - 1}, x_{0})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1})}{q (x_{1} | x_{0})} + \ln \prod_{t = 2}^{T} \frac{p_{θ} (x_{t - 1} | x_{t})}{\frac{p (x_{t - 1} | x_{t}, x_{0}) q (x_{t} | x_{0})}{q (x_{t - 1} | x_{0})}}] 使 用 (6) 进 行 替 换 \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1})}{q (x_{1} | x_{0})} + \ln \prod_{t = 2}^{T} \frac{p_{θ} (x_{t - 1} | x_{t})}{\frac{p (x_{t - 1} | x_{t}, x_{0}) q (x_{t} | x_{0})}{q (x_{t - 1} | x_{0})}}] 相 邻 项 可 以 消 去 \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1})}{q (x_{1} | x_{0})} + \ln \frac{q (x_{1} | x_{0})}{q (x_{T} | x_{0})} + \ln \prod_{t = 2}^{T} \frac{p_{θ} (x_{t - 1} | x_{t})}{q (x_{t - 1} | x_{t}, x_{0})}] \\ = E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T}) p_{θ} (x_{0} | x_{1})}{q (x_{T} | x_{0})} + \sum_{t = 2}^{T} \ln \frac{p_{θ} (x_{t - 1} | x_{t})}{q (x_{t - 1} | x_{t}, x_{0})}] \\ = \begin{array}{r} E_{q (x_{1 : T} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})] + E_{q (x_{1 : T} | x_{0})} [\ln \frac{p (x_{T})}{q (x_{T} | x_{0})}] + \sum_{t = 2}^{T} E_{q (x_{1 : T} | x_{0})} [\ln \frac{p_{θ} (x_{t - 1} | x_{t})}{q (x_{t - 1} | x_{t}, x_{0})}] \end{array} \\ = \begin{array}{r} E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})] + E_{q (x_{T} | x_{0})} [\ln \frac{p (x_{T})}{q (x_{T} | x_{0})}] + \sum_{t = 2}^{T} E_{q (x_{t}, x_{t - 1} | x_{0})} [\ln \frac{p_{θ} (x_{t - 1} | x_{t})}{q (x_{t - 1} | x_{t}, x_{0})}] \end{array} \\ = \begin{aligned} \underset{reconstruction term}{\underset{⏟}{E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})]}} & - \underset{prior matching term}{\underset{⏟}{D_{KL} (q (x_{T} | x_{0}) | | p (x_{T}))}} \\ - \sum_{t = 2}^{T} \underset{denoising matching term}{\underset{⏟}{E_{q (x_{t} | x_{0})} [D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t}))]}} \end{aligned} \end{aligned} \end{array}

其中值得注意的是倒数第二步，实际上用到了如下性质：

E_{p (x_{1 : n})} f (x_{i}) = \int_{x_{i}} f (x_{i}) p (x_{1 : n}) d x_{i} = \int_{x_{i}} f (x_{i}) p (x_{i}) d x_{i} = E_{p (x_{i})} f (x_{i})

最终得到的 ELBO 由如下 3 项构成：

$E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})]$ ：和 (5) 相比没有变化。
$D_{KL} (q (x_{T} | x_{0}) ∣ p (x_{T}))$ ：和 (5) 相比在形式上略有区别，对于前向过程 $q$ 得到的 $x_{T}$ ，此处是由 $x_{0}$ 直接得到，而在 $E_{q (x_{T - 1} | x_{0})} [D_{KL} (q (x_{T} | x_{T - 1}) | | p (x_{T}))]$ 中，是先由 $x_{0}$ 得到 $x_{T - 1}$ ，再得到 $x_{T}$ 。但含义相同。
最后一项中，需要采样的变量只剩下 $x_{t}$ 一个了，其实际含义是使得模型建模的 $p_{θ} (x_{t - 1} | x_{t})$ 与真实分布 $q (x_{t - 1} | x_{t}, x_{0})$ 尽可能接近。

虽然 $q$ 表示的是正向过程，而用 $q (x_{t - 1} | x_{t}, x_{0})$ 来表示逆向过程，表示的是直接由正向过程计算得到的逆向过程，即逆向过程的真实分布。
而条件项 $x_{0}$ 的加入也很符合直觉：作为 gt，其降噪步骤必然与原始输入 $x_{0}$ 相关。并且，在 (4) 式中尝试给出逆向过程的表达式时，也发现其依赖于 $p (x_{0})$ 。

接下来就是代入计算，第二项不含可学习的参数，可以直接忽略。

Denoising matching term

首先来表达确定的 $q (x_{t - 1} | x_{t}, x_{0})$ 。由贝叶斯定理，我们可以将其写成如下形式：

\begin{matrix} (8) & q (x_{t - 1} | x_{t}, x_{0}) = \frac{q (x_{t} | x_{t - 1}, x_{0}) \cdot q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} \end{matrix}

由模型的马尔可夫性质，我们知道 $q (x_{t} | x_{t - 1}, x_{0}) = q (x_{t} | x_{t - 1}) = N (x_{t}; \sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I)$ 。而 $q (x_{t} | x_{0}), q (x_{t - 1} | x_{0})$ 呢？到目前为止，我们只知道能够通过迭代求出它们的值，但事实上，同样可以显式给出它们的表达式：

\begin{matrix} (9) & \begin{array}{r} \begin{aligned} x_{t} & = \sqrt{\prod_{i = 1}^{t} α_{i}} x_{0} + \sqrt{1 - \prod_{i = 1}^{t} α_{i}} ϵ \\ = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ, \bar{α} = \prod_{i = 1}^{t} α_{i}, ϵ \sim N (0, I) \\ \sim N (\sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I) \end{aligned} \end{array} \end{matrix}

expand to see detailed derivation

简单的展开

\begin{array}{r} \begin{aligned} x_{t} & = \sqrt{α_{t}} x_{t - 1} + \sqrt{1 - α_{t}} ϵ_{t} \\ = \sqrt{α_{t}} (\sqrt{α_{t - 1}} x_{t - 2} + \sqrt{1 - α_{t - 1}} ϵ_{t - 1}) + \sqrt{1 - α_{t}} ϵ_{t} \\ = \sqrt{α_{t} α_{t - 1}} x_{t - 2} + \underset{两个相互独立的0均值的高斯分布相加}{\underset{⏟}{\sqrt{α_{t} - α_{t} α_{t - 1}} ϵ_{t - 1} + \sqrt{1 - α_{t}} ϵ_{t}}} \\ = \sqrt{α_{t} α_{t - 1}} x_{t - 2} + \underset{两个方差相加，用一个新的高斯分布代替}{\underset{⏟}{\sqrt{{\sqrt{α_{t} - α_{t} α_{t - 1}}}^{2} + {\sqrt{1 - α_{t}}}^{2}} ϵ}} \\ = \sqrt{α_{t} α_{t - 1}} x_{t - 2} + \sqrt{1 - α_{t} α_{t - 1}} ϵ \\ = . . . \\ = \sqrt{\prod_{i = 1}^{t} α_{i}} x_{0} + \sqrt{1 - \prod_{i = 1}^{t} α_{i}} ϵ \\ = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ, \bar{α} = \prod_{i = 1}^{t} α_{i}, ϵ \sim N (0, I) \\ \sim N (\sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I) \end{aligned} \end{array}

然后，我们就可以将这三项代入 $q (x_{t} | x_{t - 1}, x_{0})$ 中进行化简：

\begin{matrix} (10) & \begin{array}{r} \begin{aligned} q (x_{t - 1} | x_{t}, x_{0}) & = \frac{q (x_{t} | x_{t - 1}, x_{0}) q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} \\ = \frac{N (x_{t}; \sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I) N (x_{t - 1}; \sqrt{{\bar{α}}_{t - 1}} x_{0}, (1 - {\bar{α}}_{t - 1}) I)}{N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I)} \\ \propto N (x_{t - 1}; \underset{μ_{q} (x_{t}, x_{0})}{\underset{⏟}{\frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}}}}, \underset{Σ_{q} (t)}{\underset{⏟}{\frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} I}}) \end{aligned} \end{array} \end{matrix}

expand to see detailed derivation

\begin{array}{r} \begin{aligned} q (x_{t - 1} | x_{t}, x_{0}) & = \frac{q (x_{t} | x_{t - 1}, x_{0}) q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} \\ = \frac{N (x_{t}; \sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I) N (x_{t - 1}; \sqrt{{\bar{α}}_{t - 1}} x_{0}, (1 - {\bar{α}}_{t - 1}) I)}{N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I)} \\ \propto exp {- [\frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{2 (1 - α_{t})} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t - 1})} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t})}]} \\ = exp {- \frac{1}{2} [\frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{1 - α_{t}} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{1 - {\bar{α}}_{t - 1}} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{1 - {\bar{α}}_{t}}]} \\ = exp {- \frac{1}{2} [\frac{(- 2 \sqrt{α_{t}} x_{t} x_{t - 1} + α_{t} x_{t - 1}^{2})}{1 - α_{t}} + \frac{(x_{t - 1}^{2} - 2 \sqrt{{\bar{α}}_{t - 1}} x_{t - 1} x_{0})}{1 - {\bar{α}}_{t - 1}} + C (x_{t}, x_{0})]} \\ \propto exp {- \frac{1}{2} [- \frac{2 \sqrt{α_{t}} x_{t} x_{t - 1}}{1 - α_{t}} + \frac{α_{t} x_{t - 1}^{2}}{1 - α_{t}} + \frac{x_{t - 1}^{2}}{1 - {\bar{α}}_{t - 1}} - \frac{2 \sqrt{{\bar{α}}_{t - 1}} x_{t - 1} x_{0}}{1 - {\bar{α}}_{t - 1}}]} \\ = exp {- \frac{1}{2} [(\frac{α_{t}}{1 - α_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}^{2} - 2 (\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}]} \\ = exp {- \frac{1}{2} [\frac{α_{t} (1 - {\bar{α}}_{t - 1}) + 1 - α_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})} x_{t - 1}^{2} - 2 (\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}]} \\ = exp {- \frac{1}{2} [\frac{α_{t} - {\bar{α}}_{t} + 1 - α_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})} x_{t - 1}^{2} - 2 (\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}]} \\ = exp {- \frac{1}{2} [\frac{1 - {\bar{α}}_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})} x_{t - 1}^{2} - 2 (\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}]} \\ = exp {- \frac{1}{2} (\frac{1 - {\bar{α}}_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}) [x_{t - 1}^{2} - 2 \frac{(\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}})}{\frac{1 - {\bar{α}}_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}} x_{t - 1}]} \\ = exp {- \frac{1}{2} (\frac{1 - {\bar{α}}_{t}}{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}) [x_{t - 1}^{2} - 2 \frac{(\frac{\sqrt{α_{t}} x_{t}}{1 - α_{t}} + \frac{\sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) (1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} x_{t - 1}]} \\ = exp {- \frac{1}{2} (\frac{1}{\frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}}}) [x_{t - 1}^{2} - 2 \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}} x_{t - 1}]} \\ \propto N (x_{t - 1}; \underset{μ_{q} (x_{t}, x_{0})}{\underset{⏟}{\frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}}}}, \underset{Σ_{q} (t)}{\underset{⏟}{\frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} I}}) \end{aligned} \end{array}

由此，我们发现由 $q (x_{t - 1} | x_{t}, x_{0})$ 得到的 $x_{t - 1}$ 其实服从于 $N (μ_{q} (x_{t}, x_{0}), Σ_{q} (t))$ 。而 KL 散度中的另一项呢？是模型决定的 $p_{θ} (x_{t} | x_{t - 1})$ 。要使得 $p_{θ} (x_{t} | x_{t - 1})$ 与 $q (x_{t - 1} | x_{t}, x_{0})$ 尽可能接近，索性也让其是一个高斯分布。

对于方差，由于 $Σ_{q}$ 只和时间步 $t$ 相关，逆向过程的模型也可以获取到该值，所以索性令 $p_{θ}$ 的方差也是 $Σ_{q}$ ；
对于均值，就不能这么干了，因为 $μ_{q}$ 与 $x_{0}$ 相关，逆向过程的模型无法获取到该值，因此必须通过参数化求解，不妨设当前的均值与 $t$ 和 $x_{t}$ 相关。

综上所述，我们约定了 $p_{θ} (x_{t - 1} | x_{t}) \sim N (x_{t}; μ_{θ} (x_{t}, t), Σ_{q} (t))$ ，而两个高斯分布的 KL 散度又是有公式的：

\begin{matrix} (11) & D_{KL} (N (x; μ_{x}, Σ_{x}) | | N (y; μ_{y}, Σ_{y})) = \frac{1}{2} [\log \frac{| Σ_{y} |}{| Σ_{x} |} - d + tr (Σ_{y}^{- 1} Σ_{x}) + (μ_{y} - μ_{x})^{T} Σ_{y}^{- 1} (μ_{y} - μ_{x})] \end{matrix}

因此，可以得出真实分布 $q (x_{t - 1} | x_{t}, x_{0})$ 和参数化学习分布 $p_{θ} (x_{t - 1} | x_{t})$ 的 KL 散度为：

\begin{matrix} (12) & \begin{array}{r} \begin{aligned} D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t})) \\ = D_{KL} (N (x_{t - 1}; μ_{q}, Σ_{q} (t)) | | N (x_{t - 1}; μ_{θ}, Σ_{q} (t))) \\ = \frac{1}{2} [\log \frac{| Σ_{q} (t) |}{| Σ_{q} (t) |} - d + tr (Σ_{q} (t)^{- 1} Σ_{q} (t)) + (μ_{θ} - μ_{q})^{T} Σ_{q} (t)^{- 1} (μ_{θ} - μ_{q})] \\ = \frac{1}{2} [\log 1 - d + d + (μ_{θ} - μ_{q})^{T} Σ_{q} (t)^{- 1} (μ_{θ} - μ_{q})] \\ = \frac{1}{2} [(μ_{θ} - μ_{q})^{T} Σ_{q} (t)^{- 1} (μ_{θ} - μ_{q})] \\ = \frac{1}{2} [(μ_{θ} - μ_{q})^{T} {(σ_{q}^{2} (t) I)}^{- 1} (μ_{θ} - μ_{q})] \\ = \frac{1}{2 σ_{q}^{2} (t)} [{‖ μ_{θ} - μ_{q} ‖}_{2}^{2}] \end{aligned} \end{array} \end{matrix}

极大化 ELBO 函数，等价于极小化 (12)，等价于使得每个时间步，模型的 $μ_{θ} (x_{t}, t)$ 与真实分布的 $μ_{q} (x_{t}, x_{0})$ 尽可能接近。于是，我们又可以索性令 $μ_{θ} (x_{t}, t)$ 与 $μ_{q}$ 具有相似的形式：

\begin{matrix} (13) & μ_{θ} (x_{t}, t) = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) {\hat{x}}_{θ} (x_{t}, t)}{1 - {\bar{α}}_{t}} \end{matrix}

换言之，模型只需要预测其中的 ${\hat{x}}_{θ} (x_{t}, t)$ 。于是乎，我们可以进一步简化 (12) 中的极小化目标：

\begin{matrix} (14) & \begin{array}{r} \begin{aligned} {\arg max}_{θ} [D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t}))] \\ = & {\arg min}_{θ} [\frac{1}{2 σ_{q}^{2} (t)} [{‖ μ_{θ} - μ_{q} ‖}_{2}^{2}]] \\ \Leftrightarrow & {\arg min}_{θ} [{‖ μ_{θ} - μ_{q} ‖}_{2}^{2}] \\ = & {\arg min}_{θ} [\frac{\sqrt{{\bar{α}}_{t - 1}} (1 - α_{t})}{1 - {\bar{α}}_{t}} {‖ ({\hat{x}}_{θ} (x_{t}, t) - x_{0}) ‖}_{2}^{2}] \\ \Leftrightarrow & {\arg min}_{θ} [{‖ ({\hat{x}}_{θ} (x_{t}, t) - x_{0}) ‖}_{2}^{2}] \end{aligned} \end{array} \end{matrix}

Reconstruction term

相对 denoising matching 项来说，这一项并没有涉及很多的求和项，所以对于逆向过程模型的假设都是以 denoising matching 项分析中的“索性令”为准。

多元高斯分布的概率密度函数为：

\begin{matrix} (15) & f_{x} (x_{1}, \dots, x_{k}) = \frac{1}{\sqrt{(2 π)^{k} | Σ |}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} \end{matrix}

据此化简 reconstruction term：

\begin{matrix} (16) & \begin{array}{r} \begin{aligned} {\arg max}_{θ} E_{q (x_{1} | x_{0})} \ln p_{θ} (x_{0} | x_{1}) \\ = & {\arg max}_{θ} E_{q (x_{1} | x_{0})} \ln (\frac{1}{\sqrt{(2 π)^{d} | Σ_{q} (1) |}} \exp {- \frac{1}{2} (x_{0} - μ_{θ} (x_{1}, 1))^{T} Σ_{q} (1)^{- 1} (x_{0} - μ_{θ} (x_{1}, 1))}) \\ \Leftrightarrow & {\arg min}_{θ} E_{q (x_{1} | x_{0})} {‖ x_{0} - μ_{θ} (x_{1}, 1) ‖}_{2}^{2} \end{aligned} \end{array} \end{matrix}

又因为 $μ_{θ} (x_{1}, 1)$ 需要用到 ${\bar{α}}_{0}$ ，这个值并没有定义（事实上在 denoising matching 项中， $t$ 的下界也是 2），这里我们不妨另其为 $1$ ，则可以进一步将优化目标写作：

\begin{matrix} (16) & {\arg min}_{θ} E_{q (x_{1} | x_{0})} {‖ x_{0} - {\hat{x}}_{θ} (x_{1}, 1) ‖}_{2}^{2} \end{matrix}

为什么这么写，接下来就会明白了

Final Loss

结合以上两项的结果，我们可以得出最终的优化目标：

\begin{matrix} (17) & \begin{array}{r} \begin{aligned} {\arg max}_{θ} ELBO \\ \Leftrightarrow {\arg max}_{θ} [E_{q (x_{1} | x_{0})} [\ln p_{θ} (x_{0} | x_{1})] - \sum_{t = 2}^{T} E_{q (x_{t} | x_{0})} [D_{KL} (q (x_{t - 1} | x_{t}, x_{0}) | | p_{θ} (x_{t - 1} | x_{t}))]] \\ \Leftrightarrow {\arg min}_{θ} [E_{q (x_{1} | x_{0})} [{‖ x_{0} - {\hat{x}}_{θ} (x_{1}, 1) ‖}_{2}^{2}]] + [\sum_{t = 2}^{T} E_{q (x_{t} | x_{0})} [{‖ ({\hat{x}}_{θ} (x_{t}, t) - x_{0}) ‖}_{2}^{2}]] \\ \Leftrightarrow {\arg min}_{θ} \sum_{t = 1}^{T} E_{q (x_{t} | x_{0})} [{‖ ({\hat{x}}_{θ} (x_{t}, t) - x_{0}) ‖}_{2}^{2}] \end{aligned} \end{array} \end{matrix}

从目标函数中可以发现，模型在每个时间步 $t$ 都在预测原始输入 $x_{0}$ ，而推理过程却是使用 ${\hat{x}}_{θ} (x_{t}, t)$ 来计算 $μ_{θ}$ ，从而结合 $Σ_{q} (t)$ 计算出 $p_{θ} (x_{t - 1} | x_{t})$ ，最终随机采样得到 $x_{t - 1}$ 。通过 $T$ 步采样得出最终的输出。直觉上讲，每一步预测的 ${\hat{x}}_{θ}$ 目标按道理是不同的。

After reading
经过如此冗长的推导，我们不妨来回顾一下整个过程：
生成过程是基于一个 MHVAE；
因为前向过程确定，我们实际上要学习的是从 $p (x_{T})$ 这个先验高斯分布，采样还原出 $p (x_{0})$ 的逆向过程 $q (x_{t} ∣ x_{t + 1})$ ；
采用 MLE 进行学习，可观测的生成样本只有 $x_{0}$ ；
经过一系列推导，得出目标函数中的若干项，其中高斯分布极大简化了推导过程；
因为目标是最小化损失函数，因此我们可以令 $q_{θ}$ 具有和已知概率密度函数相似的结构，而将无法直接获取的部分留待网络学习；