
视频生成受模型容量, 数据量和可拓展性的限制, DiT架构改变了这一局面.
传统的音视频联合生成需要一个级联的过程, 先生成视频再生成音频, 限制了生成质量, 音视频模态间没有交互, 音视频联合生成一个一些模型目前都是闭源的.
介绍挑战: 1) 标注需要更细致. 2) 两种模态在生成过程中需要整合信息, 模态信息密度差异大. 3) 大多数现有开源模型仅在小规模架构和有限数据集上测试.

视频用Wan2.1 video的VAE, 音频用DAC-style audio VAE. 使用Flow Matching, 时间步加噪1-t那个, loss是视频+音频, 有两个损失权重分别控制音频和视频损失.
利用强大的预训练单模态扩散模型, 以最小的额外成本实现视频-音频同步生成. 在每个交互层中, 添加了两个交叉注意力块: 一个将视频隐藏状态注入音频DiT, 另一个将音频隐藏状态注入视频DiT. 通过Aligned RoPE对齐时间网格(视频和音频潜在变量存在于不同的时间网格上, 视频帧率低, 音频帧率高).
数据收集包括电影, 博客, 动画多个题材, 多个主题, 有公开的数据集, 也用内部数据集.
数据处理我觉得论文中的图说得很清楚, 它的音频和视频是分别标注的, 有speech的音频和没有speech的音频也是分开处理的, 使用了另一个模型合成视频和音频caption.

第一阶段微调视频流, 第二阶段视频流和音频流联合训练, 又分360p(多样数据) -> 360p(高质量数据) -> 720p(最高质量数据).
它这个讲得太细了, 讲了使用的训练框架, 保留哪些, 训练数据, 评估指标和结果, 就用自己的数据sft了一下呗.
现在是音视频的联合训练, 第一阶段随机初始化的情况下插入Bridge模块, 1024块GPU, 360x640x193帧, 使用不对称的 sigma-shift 值, 以便将视频学习集中在激进的降噪上, 同时保持音频过渡更平滑(视频流loss权重更大), 花了15天; 第二阶段音视频的权重一致, text的drop out rate从0.5降到0.2, CFG使用了LUFS标准化以减轻CFG引起的响度过大问题, 训练时间7天; 第三阶段提高分辨率, 使用高质量数据集, 训练和20天.
在联合训练的初始阶段Bridge是随机初始化的, 需要快速学习, 原始训练tower需要保持稳定并维持其强大的单模态先验, 这个问题通过异构学习率解决.
音频流和视频流. 音频和视频模态具有不同的时间复杂性, 单一噪声水平可能对一种模态来说过于激进, 对于另一模态来说又过于温和, 解耦两种模态的去噪轨迹.
一些感觉我不需要了解的trick: Fully Sharded Data Parallel (FSDP), 通过USP采用sequence parallelism, 手动内存管理.
从单一模态的角度来看, 另一种模态提供了额外的条件信息, 我们可以分别调整文本条件和跨模态条件的引导强度, 公式解释标准的双模态公式.
本质就是对用户输入的prompt进行优化, 需要指出的是如果是text-image生成视频, 会从参考图中提取一些结构化的信息.
这个懒得看了.
感受
因为它是diffusion中的MoE架构才看的, 结果没讲这部分, 它要实现音视频联合分布时, 核心是通过cross attention联合音视频模态, 因为引入了随机初始化的layer, 需要与主网络设计不同的学习率; 因为音视频模态的数据性质不同, 设计了cfg, 特殊RoPE, 再就是基模训练会有的一些trick, 多阶段训练, 性能优化, 数据处理.
启发在于怎么进行两种不同的模态联合训练, 会遇到哪些困难, 需要怎么解决.