CausalForcing-intro

介绍

AR diffusion model高速发展, 实时与交互的应用(世界模型, 游戏模拟, 具身智能, 交互内容创造).

最近的方法, 蒸馏双向model到少采样步AR(ODE->DMD). 指出architectural gap的问题, 这种差距源于将一个可以访问未来帧的双向模型转换为仅基于过去上下文的因果架构, 它认为双向转单向不可靠.

他们认为以前的方法没有恰当的解决这一问题.

背景

CausalForcing-overview

diffusion models

前向加噪, 反向去噪, Flow Matching.

Autoregressive Video Diffusion Models

AR依次生成帧, 当前帧只能看到前序帧. 两个策略, teacher forcing 和 diffusion forcing.

teacher forcing是在一个干净的过去帧与带噪声的副本连接, 并使用因果注意力掩码; diffusion forcing是条件化于带噪声的历史帧前缀.

不知道为什么把这两个操作放到一起比较, 我记得omniforcing里面这分别是stage2和stage3.

consistency distillation and ode distillation

一致性蒸馏要求在同一条 ODE 轨迹上的任意两点，经过模型处理后都必须映射到同一个起点; ode蒸馏要求student模型在轨迹上与teacher保持一致.

Score Distillation

DMD是直接匹配分布, 要求结果分布一致.

方法

现存方法的限制

重复叙述了, 就是前面讲的architectural gap. 他认为现在的sota双向转单向的方法效果也很烂.

分析当前方法的次优性

提出了一个理论, injectivity: 在 ODE 蒸馏中, 为了让 MSE 损失函数有效, 必须保证每一个噪声样本在特定时间 $t$ 只能对应唯一一个干净样本.

标准蒸馏在视频级满足injectivity, 一个噪声视频对应一个干净视频. 自回归蒸馏必须在帧级满足injectivity, 一个噪声帧必须对应唯一干净帧.

指出了self forcing的ode蒸馏存在的理论缺陷, 1) 老师看太多, 学生学不会; 2) 碰撞冲突, 在student看来, 一个噪声帧可能对应多个结果, 因为未来帧没有计算进去.

这种non-injectivity违反了数学前提, 导致学生模型无法学到真实的流映射, 被迫学习条件均值, 视觉上表现为模糊且不连续.

再往下是这一理论的数学证明.

causal forcing

改变了蒸馏的流程, 先训练一个自回归的teacher, 再多阶段蒸馏(ODE初始化, DMD提高每一帧的画面质量与细节, GAN Loss增强真实感和动态连续性).

后面还讨论了如何应用到consistency model.

实验

基模是Wan2.1-T2V-1.3B, 双向转单向训了2K步, 之后的蒸馏时ODE 1k步, DMD 750步.

感受

核心观点就是双向转单向通过ode不靠谱, 要先通过类sft微调一个AR的teacher(他们发现2k到3k步就可以做到), 再去蒸馏.

最近几篇论文在我看来就一个点. 因为篇幅不够会记录一些自己的实验过程, 调研的思考, 形式上不再那么八股, 似乎只要这一个点够好有启发, 审稿人还是愿意接受的.(有点断章取义, 最近几篇都是偏理论研究型论文)

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

介绍

背景

diffusion models

Autoregressive Video Diffusion Models

consistency distillation and ode distillation

Score Distillation

方法

现存方法的限制

分析当前方法的次优性

causal forcing

实验

On this page

介绍

背景

diffusion models

Autoregressive Video Diffusion Models

consistency distillation and ode distillation

Score Distillation

方法

现存方法的限制

分析当前方法的次优性

causal forcing

实验