背景

Autoregressive使用causal注意力模式按固定大小的块生成视频, 每一块潜在帧在先前生成的块中缓存的键值对条件下进行去噪, 加快推理速度.

VACE给视频生成模型添加额外的信息token来指导模型可控生成, 详细token设计见VACE.

结构问题

原VACE中处理参考图信息

VACE的参考图和noise帧拼接, 使用双向注意力处理, 然后在输出中移除参考帧, 与流式不兼容的地方在于: 1) 不同的任务需要不同数量的参考帧, 这阻止了流式模型所需的固定大小块处理; 2) 拼接的参考帧成为模型因果历史的一部分, 被缓存并像之前生成的帧一样被关注. 这是语义上不正确的: 参考帧应该指导生成, 而不是被视为历史上下文. 而移除参考帧需要重新计算整个缓存. 3) 每次去噪步骤后必须识别并移除参考帧.

改动: 分离条件pathway

把参考帧从扩散潜空间移出, 放入一个并行的条件路径中, 视频潜变量单独进行去噪, 而参考帧则由上下文模块单独处理.

Why Pretrained Weights Transfer

这里解释了一下为什么可以复用VACE的预训练权重, 因为context block块本身没有改变, refer更改了一种注入方式.

最后

救命这篇论文AI写的我真读不下去了, 说一下核心改动, 参考图不再进入 DiT 的主序列, 而是单独交给 Context Blocks 处理 .

Adapting VACE for Real-Time Autoregressive Video Diffusion

On this page