SMLD

原论文：link

参考博客：link1、link2(封面来源)、link3

Score matching with Langevin dynamics

Basic Idea

在 DDPM 中，我们通过学习逆向过程的分布 $p_{θ} (x_{t - 1} | x_{t})$ 来从 $p_{T} (x_{T})$ 中生成图像，而基于分数的生成模型给出了另一种思路：放弃使用 $p_{data} (x)$ ，转而学习样本分布 $p_{data} (x)$ 的梯度 $\nabla_{x} \log p (x)$ ，随后通过 Langevin dynamics 过程，在 $p_{data} (x)$ 中进行采样，以生成新的数据。因此，基于分数的生成模型可以看作由以下两部分构成：

通过分数匹配，训练 $s_{θ} (x) \approx \nabla_{x} \log p (x)$ ；
通过基于分数的采样算法，随机采样近似 $p_{data} (x)$ 的样本。

SMLD framework

Score matching

分数匹配方法起初是为了学习具有如下形式的分布：

\begin{matrix} (1) & p_{θ} (x) = \frac{1}{Z_{θ}} e^{- f_{θ} (x)} \end{matrix}

其中 $Z_{θ} = \int e^{- f_{θ} (x)}$ 是归一项。如果要使用最大似然法，那么就不得不计算 $Z_{θ}$ ，而这需要遍历 $x$ ，在多数情况下不适用。而该分布的分数 $\nabla_{x} \log p_{θ} (x)$ 却很容易计算：

\begin{matrix} (2) & \begin{aligned} \nabla_{x} \log p_{θ} (x) & = \nabla_{x} \log \frac{1}{Z_{θ}} + \nabla_{x} \log e^{- f_{θ} (x)} \\ = - \nabla_{x} f_{θ} (x) \\ \approx s_{θ} (x) \end{aligned} \end{matrix}

因此，我们可以转而学习该分布的分数，而不需要首先训练一个模型，来预测 $p_{data} (x)$ 。而这个方法显然不局限于这种形式的分布。训练该模型，需要最小化均方误差 $\frac{1}{2} E [{‖ s_{θ} (x) - \nabla_{x} \log p_{data} (x) ‖}_{2}^{2}]$ ，而该损失函数还可以进一步写作与 $p_{data}$ 无关的形式：

\begin{matrix} (3) & E_{p_{data} (x)} [tr (\nabla_{x} s_{θ} (x) + \frac{1}{2} {‖ s_{θ} (x) ‖}_{2}^{2})] \end{matrix}

expand to see details

（直接挪用了 GPT 的回答）

从以下目标函数形式：

J (θ) = \frac{1}{2} \int p_{data} (x) {‖ s_{data} (x) - s_{θ} (x) ‖}_{2}^{2} d x

推导到目标函数的另一种形式：

J (θ) = \int p_{data} (x) [tr (\nabla_{x} s_{θ} (x)) + \frac{1}{2} {‖ s_{θ} (x) ‖}_{2}^{2}] d x

关键步骤如下：

原始形式展开

平方项展开：

{‖ s_{data} (x) - s_{θ} (x) ‖}_{2}^{2} = {‖ s_{data} (x) ‖}_{2}^{2} - 2 s_{data} (x) \cdot s_{θ} (x) + {‖ s_{θ} (x) ‖}_{2}^{2}

代入 $J_{θ}$ ：

J (θ) = \frac{1}{2} \int p_{data} (x) ({‖ s_{data} (x) ‖}_{2}^{2} - 2 s_{data} (x) \cdot s_{θ} (x) + {‖ s_{θ} (x) ‖}_{2}^{2}) d x

拆分为三项：

J (θ) = \frac{1}{2} \int p_{data} (x) {‖ s_{data} (x) ‖}_{2}^{2} d x - \int p_{data} (x) s_{data} (x) \cdot s_{θ} (x) d x + \frac{1}{2} \int p_{data} (x) {‖ s_{θ} (x) ‖}_{2}^{2} d x

注意，得分函数 $s_{data} (x)$ 定义为：

s_{data} (x) = \nabla_{x} \log p_{data} (x) = \frac{p_{data} (x)}{\nabla_{x} p_{data} (x)}

由此，积分中的第二项可以化简为：

\int p_{data} (x) s_{data} (x) \cdot s_{θ} (x) d x = \int \nabla_{x} p_{data} (x) \cdot s_{θ} (x) d x

利用分部积分化简

对第二项应用分部积分（忽略边界项），有：

\int \nabla_{x} p_{data} (x) \cdot s_{θ} (x) d x = - \int p_{data} (x) tr (\nabla_{x} s_{θ} (x)) d x

因此：

\int p_{data} (x) s_{data} (x) \cdot s_{θ} (x) d x = - \int p_{data} (x) tr (\nabla_{x} s_{θ} (x)) d x

为什么能省略边界项 $p_{data} (x) \cdot s_{θ} (x)$ ? 在分部积分中，边界项其实是 $p_{data} (x) \cdot s_{θ} (x) |_{a}^{b}$ ，而在真实分布中， $a, b$ 两点的概率密度基本为0。
为什么是 $tr$ ? 由向量场 $v (x)$ 的散度定义。

代入原表达式

将化简结果代入 $J (θ)$ ：

J (θ) = \frac{1}{2} \int p_{data} (x) {‖ s_{data} (x) ‖}_{2}^{2} d x + \int p_{data} (x) tr (\nabla_{x} s_{θ} (x)) d x + \frac{1}{2} \int p_{data} (x) {‖ s_{θ} (x) ‖}_{2}^{2} d x

注意到，第一项是与参数 $θ$ 无关的常数，可以忽略。

因此：

J (θ) = \int p_{data} (x) tr (\nabla_{x} s_{θ} (x)) d x + \frac{1}{2} \int p_{data} (x) {‖ s_{θ} (x) ‖}_{2}^{2} d x

整理后为：

\begin{aligned} J (θ) & = \int p_{data} (x) [tr (\nabla_{x} s_{θ} (x)) + \frac{1}{2} {‖ s_{θ} (x) ‖}_{2}^{2}] d x \\ = E_{p_{data} (x)} [tr (\nabla_{x} s_{θ} (x)) + \frac{1}{2} {‖ s_{θ} (x) ‖}_{2}^{2}] \end{aligned}

但是， $tr (\nabla_{x} s_{θ} (x))$ 的计算成本很高（因为是二阶偏导），针对这个问题，有两种解决方法：

Denoising score matching

这类方法可以完全绕开 $tr (\nabla_{x} s_{θ} (x))$ 的计算，通过向原始分布 $p_{data} (x)$ 添加噪声 $q_{σ} (\tilde{x} ∣ x)$ ，我们可以得到新的分布 $q_{σ} (\tilde{x}) ≜ \int q_{σ} (\tilde{x} ∣ x) p_{data} (x) d x$ ，等价的。而可以证明，对于 $q_{σ} (\tilde{x})$ 的目标函数等价于：

\begin{matrix} (3) & \frac{1}{2} E_{q_{σ} (\tilde{x} ∣ x) p_{data} (x)} [{‖ s_{θ} (\tilde{x}) - \nabla_{\tilde{x}} \log q_{σ} (\tilde{x} ∣ x) ‖}_{2}^{2}] \end{matrix}

这个目标函数具有以下特点：

同样与 $p_{data}$ 无关，方便计算；
最终得到的是 $s_{θ^{*}} = \nabla_{x} \log q_{σ} (\tilde{x} ∣ x) \approx \log p_{data} (x)$ ，这要求添加的扰动程度不能太大。

Sliced score matching

使用随机投影来近似计算 $tr (\nabla_{x} s_{θ} (x))$ ，目标函数为

\begin{matrix} (4) & E_{p_{v}} E_{p_{data} (x)} [v^{T} \nabla_{x} s_{θ} (x) v + \frac{1}{2} {‖ s_{θ} (x) ‖}_{2}^{2}] \end{matrix}

Langevin dynamics

朗之万动力采样（Langevin dynamics sample，后简记为 $LD$ ）算法可以从 $p (x)$ 中生成样本，而只需要用到分布的分数。首先，从某个已知的先验分布 $π (x)$ 中采样 ${\tilde{x}}_{0} \sim π (x)$ ，然后迭代如下过程：

\begin{matrix} (5) & {\tilde{x}}_{t} = {\tilde{x}}_{t - 1} + \frac{ϵ}{2} \nabla_{x} \log {\tilde{x}}_{t - 1} (+) \sqrt{ϵ} z_{t} \end{matrix}

因此，我们可以首先通过分数匹配训练 $s_{θ} (x) \approx \nabla_{x} \log p ({\tilde{x}}_{t - 1})$ ，随后通过 $LD (T \to \infty, ϵ \to 0)$ 来生成样本。

Challenges of naive SMLD

流形假设

在实际情况中，样本可能集中在高维样本空间的低维流形上 (某些维度不包含信息，例如全是0)，这会导致 SMLD 做法的一些问题。首先， $\nabla_{x}$ 在无效维度上无法定义；其次，当数据无法填满空间时，还会导致 $s_{θ} (x)$ 预测不一致。

低密度区域

在概率密度较低的区域，我们能获取的样本相应的也会更少，这会导致训练不足；

无法处理混合分布

对于一个分布 $p_{data} (x)$ ，我们称 ${x ∣ p_{data} (x) > 0}$ 为其支持集，其中每个点称为一个 mode。假设有一个混合分布 $p (x) = π p_{1} (x) + (1 - π) p_{2} (x)$ ，在 $p_{1} (x)$ 的支持集中，我们有 $\nabla_{x} \log x (=) \nabla_{x} \log π + \log p_{1} (x) = \nabla_{x} \log p_{1} (x)$ ，可以发现梯度与混合系数 $π$ 无关。在 $p_{2} (x)$ 的支持集中，也能得出类似的结论。这就意味着，生成样本的过程并不会取决于 $π$ 。假设我们在空间内随机采样初始点，因为生成过程与 $π$ 无关，这会导致最终生成的样本均匀分布在各 mode 上。同时，当各 mode 之间存在低密度区域时，也会导致 $LD$ 需要需要很小的步长、很大的迭代次数，才能正确采样。（个人理解：正确的 $LD$ 应当能够实现跨 mode 生成，否则样本的生成将取决于其初始点的选取，这显然不是 $p_{data} (x)$ ，而是一个取决于 $x_{0}$ 的条件分布。而 SMLD 忽略混合系数 $π$ 的特性会导致在跨域低密度区域时困难，进而导致跨 mode 困难。较小的步长是为了稳定，否则会跳过 mode。）

Warning

对于流形导致的两个问题、 $LD$ 在低密度区域存在时的问题，笔者暂时还不能完全理解，所以表述可能并不准确。如果你在读这篇笔记，请务必查看原论文。

NCSN

Inspiration

基于上述问题，原论文作者提出了 NCSN(Noise Conditional Score Networks)。该方法的提出基于以下观察：

加入噪声可以解决上述问题：加噪会改变原有的数据分布： $p_{σ} (\tilde{x}) = \int p_{σ} (\tilde{x} ∣ x) p_{data} (x) d x$ ，当噪声足够大时，我们甚至可以使得 $p_{σ} (\tilde{x}) \approx π (x)$ ，变成一个已知的先验分布。最直接的，加噪可以解决流型假设问题和低密度区域问题；而对于混合分布问题，原文并没有给出详细的解释，个人理解应当也和低密度区域的消除有关。
较小的噪声水平可以使得学习到的 $s_{θ} (x)$ 与 $\nabla_{x} \log p_{data} (x)$ 足够接近，不会影响生成结果。

显然，这两个诉求是冲突的。那就设置不同强度的噪声，并且让模型同时学习不同强度下的 $s_{θ}$ 。

Definition

令 ${σ_{i}}_{i = 1}^{L}$ 为满足 $\frac{σ_{1}}{σ_{2}} = \dots = \frac{σ_{L - 1}}{σ_{L}} > 1$ 的正几何序列。给定噪声 $σ$ ，加噪后的分布为

\begin{matrix} (6) & q_{σ} (x) ≜ \int p_{data} (t) N (x; t, σ^{2} I) d t \end{matrix}

其中，设置 $σ_{1}$ 足够大，使得加噪后的分布能够克服上述的问题；设置 $σ_{L}$ 足够小，使得噪声对生成结果的影响足够小。而模型的训练目标针对所有噪声的：

\begin{matrix} (7) & \forall σ \in {σ_{i}}_{i = 1}^{L} s_{θ} (x, σ) \approx \nabla_{x} \log q_{σ} (x) \end{matrix}

称 $s_{θ} (x, σ)$ 为一个 NCSN。

Train and Inference

训练过程以 denoising score matching 为例：加噪过程 $q_{σ} (\tilde{x} ∣ x) = N (\tilde{x}; x, σ^{2} I)$ ，因此 $\nabla_{\tilde{x}} \log q_{σ_{i}} (\tilde{x} ∣ x) = - (\tilde{x} - x) / σ_{i}^{2}$ ，代入 (3) 式可知：

\begin{matrix} (8) & \begin{array}{r} ℓ (θ; σ_{i}) ≜ \frac{1}{2} E_{p_{data} (x)} E_{\tilde{x} \sim N (x, σ^{2}, I)} [{‖ s_{θ} (\tilde{x}, σ) + \frac{\tilde{x} - x}{σ^{2}} ‖}_{2}^{2}] \end{array} \end{matrix}

再对所有的 $σ_{i}$ 统一处理，可得：

\begin{matrix} (9) & L (θ; {σ_{i}}_{i = 1}^{L}) ≜ \frac{1}{L} \sum_{i = 1}^{L} λ (σ_{i}) ℓ (θ; σ_{i}) \end{matrix}

推理过程可以看作 $LD$ 的改良版，文章中称为 "annealed Langevin dynamics"，其实就是在不同的噪声水平上进行相应的 $LD$ 。