音频-视觉扩散模型在质量上取得成功, 但是由于双向注意力依赖性导致的高延迟, 阻碍实时应用, 将离线, 双流双向蒸馏成高保真流式自回归生成框架, 解决了这个过程中遇到的一系列问题, 单GPU上达到25FPS.

OmniForcing-intro

介绍

DiT结构将视频和音频映射到连续的潜在空间, 并联合建模其时间分布取得成功, 但是巨大的计算成本.

先前的努力: 1) 级联管道, 视频和音频分别生成, 这种解耦割裂了联合分布, 限制了生成质量, 从根本上阻碍了连续自媒体; 2) 将视频扩散模型适应到causal, autoregressive frameworks中, 仅适用于视觉领域, 直接拓展到双流结构不简单.

OmniForcing首个成功将一个重型双向音视频基础模型提炼成高保真流式自回归生成器的框架, 动态交错生成音频和视频片段.

具体方法后面再看.

方法

OmniForcing-overview

问题定义与 OmniForcing 管道

有点像nlp任务, token化生成文本, 按秒划分, 每秒的内容看成一个token(极度抽象了, 视频和音频信息打包到了一起), 将下一秒的生成只依赖与前面的内容.

面临三个挑战: 1) 音频(25 FPS)和视频(3 PFS)频率不对称性; 2) 全局双向感受野限制为稀疏的causal history会触发Softmax和梯度爆炸; 3) 误差累计.

Block-Causal对齐和掩码设计

在现实世界中, 视频和音频表现出截然不同的时空特性: 视频通常具有较强的空间冗余性和较低的时间演变频率, 而音频则是一种密集的高频一维时间信号. 这导致多模态采用不同的时间下采样率, 视频VAE每秒输出3个潜在帧, 音频VAE每秒输出25个潜在帧. 如果你尝试"逐帧"对齐, 因为 25/3 不是整数, 每一帧的边界都会错位, 导致特征截断, 作者提出以一秒为单位的宏块.

对初始帧的处理: 大多数Causal VAE的第一帧都不做步长, 后续帧才会按倍数压缩, 作者没有强行把这一帧塞进后面的 1 秒块里, 而是专门为它设计了一个 Global Prefix $B_0$ .

异步Block-Causal掩码. 1) 块内对齐：在同一个块 $B_k$ 内部，音视频是可以互相看到的; 2) 块间causal. 第 k 秒的内容只能看到第 0 到 k−1 秒的内容.

四向掩码的数学准则. 块内双向, 块间因果.

Causal Regression and Architectural Stabilizers

第一阶段使用DMD(Distribution Matching Distillation)技术, 把去噪部署压缩到1-4步, 加快推理速度, 第二步把双向转为流式, 使用ODE 回归, Consistency Models沿 ODE 轨迹强制自一致性

条件分布偏移和梯度爆炸危机. 从"双向预训练模型"向"因果流式模型"转化时, 一旦加上掩码, 会出现"conditional distribution shift". 这种信息不足在不同模态之间是不对称的, 视频有3 X 384个token, 音频只有25+少数token, 导致Softmax退化, 陷入near one hot的状态. 处理方法靠Global Prefix拯救, 两阶段蒸馏主要是用来稳定训练的.

Joint Self-Forcing Distillation and Asymmetric Parallel Inference

这里要解决累计误差的问题, 在自回归任务中不可避免的. 它希望学生在自己生成的前序帧有问题的情况下, 后续帧的生成依然能模仿老师的分布(第二步的蒸馏结果).

然后是一些加速方法, 把视频分支和音频分支放到不同的卡上, 只在A2V和V2A才交换信息, 因为causal的设计, 只需要滚动维护一个 KV Cache, 计算复杂度从 $O(n^2)$ 降到 $O(n)$ .

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

介绍

相关工作

方法

问题定义与 OmniForcing 管道

Block-Causal对齐和掩码设计

Causal Regression and Architectural Stabilizers

Joint Self-Forcing Distillation and Asymmetric Parallel Inference

On this page

介绍

相关工作

方法

问题定义与 OmniForcing 管道

Block-Causal对齐和掩码设计

Causal Regression and Architectural Stabilizers

Joint Self-Forcing Distillation and Asymmetric Parallel Inference