
FasterCache
FasterCache
发布于 24.10
Features
- 对 diffusion 模型的 feature reuse 技术进行了改进,实现了推理速度与生成质量的协调。
- 无需训练,只需要基于已有的模型调整推理过程。
- 核心技术:Dynamic feature reuse、CFG-Cache。
Prerequisites
本文讨论的是 Video Diffusion Model 的优化方法,但是优化点在单帧的生成上,所以可以借鉴到 Image Diffusion Model。
什么是diffusion 模型的 cache 机制?
相邻时间步之间的 feature(attenion score matrix) 较为相似,而 feature 的计算过程较为耗时。因此,考虑在相邻时间步之间复用 feature。

Cache acceleration 领域的相关文章
- For U-Net based diffusion models
- Residual caching in
- DiT,for transformer based diffusion models - Hierarchical attention caching of PAB
什么是CFG(classifier-free guidance)
是一种用于提高生成图片质量的方法,具体而言,对于某个时间步的输入,CFG 会分别输出 conditional output
其中
Methods
Problem for Current Cache
Vanilla Feature reuse 导致的生成质量下降:虽然各 attention feature 在不同时间步之间具有很高的相似度,但忽略这些差异会导致生成质量的下降。通过观察不同时间步之间 feature 的差值,可以发现差值所对应的区域正是最终图片质量下降的区域。

CFG 中 feature 的冗余: 通过图表可以发现,
在这种情况下,复用带来的误差超过了 guidance 项,导致 guidance 失效。而

Dynamic Feature Reuse Strategy
在 reuse feature 时,加上一项用于预测其变化趋势:
随着时间步的递进,
CFG-Cache

考虑到
原文使用了
来表示高频段,下文简记为
在时间步
在接下来的 n 个时间步中,只计算 cond,而 uncond 由以下过程计算得到:
其中