
DiT结构将视频和音频映射到连续的潜在空间, 并联合建模其时间分布取得成功, 但是巨大的计算成本.
先前的努力: 1) 级联管道, 视频和音频分别生成, 这种解耦割裂了联合分布, 限制了生成质量, 从根本上阻碍了连续自媒体; 2) 将视频扩散模型适应到causal, autoregressive frameworks中, 仅适用于视觉领域, 直接拓展到双流结构不简单.
OmniForcing首个成功将一个重型双向音视频基础模型提炼成高保真流式自回归生成器的框架, 动态交错生成音频和视频片段.
具体方法后面再看.
联合音频-视觉和视频基础模型. DiT双流结构可以生成高度同步, 高保真的音频和视频, LTX-2采用非对称双流结构(14B的视频流和5B的音频流), 通过双向交叉注意力深度建模两种模态的联合分布. 计算复杂度随序列长度呈二次增长, 首次片段生成时间(TTFC)延迟, 不适合支持实时, 交互式或流媒体应用.
音视频合成与对齐. 联合基础模型前, 依赖级联或解耦, 先生成视频再生成音频.
蒸馏模型提高效率. Distribution Matching Distillation最小化近似KL散度, Consistency Models沿 ODE 轨迹强制自一致性, Adversarial Diffusion Distillation利用基于判别器的损失.
Autoregressive & Streaming Diffusion Models. 当前虽然取得一些成就, 但都是基于但模态(仅视频)架构, 联合音视频的实时流生成仍然未被探索, 简单移植会导致严重的训练不稳定.

有点像nlp任务, token化生成文本, 按秒划分, 每秒的内容看成一个token(极度抽象了, 视频和音频信息打包到了一起), 将下一秒的生成只依赖与前面的内容.
面临三个挑战: 1) 音频(25 FPS)和视频(3 PFS)频率不对称性; 2) 全局双向感受野限制为稀疏的causal history会触发Softmax和梯度爆炸; 3) 误差累计.
在现实世界中, 视频和音频表现出截然不同的时空特性: 视频通常具有较强的空间冗余性和较低的时间演变频率, 而音频则是一种密集的高频一维时间信号. 这导致多模态采用不同的时间下采样率, 视频VAE每秒输出3个潜在帧, 音频VAE每秒输出25个潜在帧. 如果你尝试"逐帧"对齐, 因为 25/3 不是整数, 每一帧的边界都会错位, 导致特征截断, 作者提出以一秒为单位的宏块.
对初始帧的处理: 大多数Causal VAE的第一帧都不做步长, 后续帧才会按倍数压缩, 作者没有强行把这一帧塞进后面的 1 秒块里, 而是专门为它设计了一个 Global Prefix B0.
异步Block-Causal掩码. 1) 块内对齐:在同一个块 Bk 内部,音视频是可以互相看到的; 2) 块间causal. 第 k 秒的内容只能看到第 0 到 k−1 秒的内容.
四向掩码的数学准则. 块内双向, 块间因果.
第一阶段使用DMD(Distribution Matching Distillation)技术, 把去噪部署压缩到1-4步, 加快推理速度, 第二步把双向转为流式, 使用ODE 回归, Consistency Models沿 ODE 轨迹强制自一致性
条件分布偏移和梯度爆炸危机. 从"双向预训练模型"向"因果流式模型"转化时, 一旦加上掩码, 会出现"conditional distribution shift". 这种信息不足在不同模态之间是不对称的, 视频有3 X 384个token, 音频只有25+少数token, 导致Softmax退化, 陷入near one hot的状态. 处理方法靠Global Prefix拯救, 两阶段蒸馏主要是用来稳定训练的.
这里要解决累计误差的问题, 在自回归任务中不可避免的. 它希望学生在自己生成的前序帧有问题的情况下, 后续帧的生成依然能模仿老师的分布(第二步的蒸馏结果).
然后是一些加速方法, 把视频分支和音频分支放到不同的卡上, 只在A2V和V2A才交换信息, 因为causal的设计, 只需要滚动维护一个 KV Cache, 计算复杂度从O(n2) 降到 O(n).