text-to-video的基础模型, 能生成10秒的长视频, fps为16, 分辨率768x1360. 卖点是长视频和文本连贯性. 3D-VAE, expert transformer, 分阶段多分辨率训练, effective pipeline. 结果在生成质量和予以对齐上都有所改进.

CogVideoX-intro

介绍

视频生成两条主线, 基于diffusion和基于transformer, 目前使用Transformer作为框架的diffusion方法占主导.

这里是组会中提到的一个技巧, 让人眼前一亮的例子, 他们发现"一道闪电劈开岩石, 一个人从岩石里跳出来"这个提示词, 现在的DiT模型生成不好, 不能保持很好的语义连续性.

他们的工作就解决了这些问题, 使用下面提到的方法.

第一使用3D VAE在同时在时间维度和空间维度压缩视频, 1) 减小序列长度, 2) 促进帧间连续, 防止闪烁.

第二使用expert transformer with expert adaptive LayerNorm来促进text和video两个模态的融合. 3D全注意力在时间维度和空间维度同时建模.

第三使用一个 video captioning pipeline 准确的描述视频的内容. 他们认为网络上的数据集都缺乏对视频的准确文本描述, 准确的描述可以让模型抓住精确的语义理解.

第四progressive training. 包括 multi-resolution pack, resolution processive training and Explicit Uniform Sampling.

当前发布了2B和5B参数两个模型. 展示了一个图, 和其它知名视频生成模型的比较.

结构

CogVideoX-overview

我算是理解为什么前面说他在时间和空间维度做全注意力了, video过3D causal VAE后有一个分块和在时间维度展开的操作, 记为 $z_{vision}$ , 然后还会和 $z_{text}$ 拼接(使用T5嵌入).

这整个transformer叫做expert transformer, expert应该和DeepSeek的expert router这种机制没有关系(还以为会有呢). adaLN和 Scale&Shift以前见过.

3D Causal VAE

CogVideoX-3DVAE

视频同时包含时间和空间信息, 为了应对建模数据的计算挑战, 用3D卷积同时在时间维度和空间维度压缩信息, 能够实现更高的压缩率, 改善视频重构的质量和压缩率.

从上面图片中可以看出在时间维度下采样了两次, 在空间维度下采样了一次, 还包含一个Kullback-Leibler (KL) regularizer不知道干嘛的. Enc Stage 和 Dec Stage包含交叉堆叠的ResNet block.

这个temporally causal convolution对应上图中的(b), 老实说这里没有看懂, 需要找到对应的论文细看吧. (图里面的Rank0, Rank1好像是指不同的GPU设备, 是一种性能优化策略? 不管了不重要)

做了消融实验比较不同的压缩率和latent channels的效果, 介绍了训练阶段的一些配置, 这里放实验章节比较好.

Expert Transformer

Patchify. video latent的shape为T x H x W x C, 分块后 $z_{vision}$ 的序列长度为 $\frac{T}{q} \cdot \frac{H}{p} \cdot \frac{\dot{W}}{p}$ .

3D-RoPE. 它前面patchify这一步可以说是对一个立方形从三个维度的方向切割成了很多小立方形, 我要怎么让模型知道其中一个小立方形在大立方形中的位置呢, 通过坐标(x, y, t). 坐标的嵌入通过RoPE, x和y占用3/8 channel, t占用2/8 channel, 在各个维度分别利用1D-RoPE, 最后拼接到一起. 其实我觉得嵌入做的视频一直是对一个数字进行映射, 我通过映射后的向量可以知道这个数字是多少.

Expert Adaptive Layernorm. 虽然为了text和video的同步在输入时将token凭借到了一起, 但是显然这两种模态非常不同, 甚至有不同的数值缩放, 两种模态使用不同的 Layernorm.

读者注

我竟然懂了它expert的含义, text和video虽然在输入是连接到了一起, norm和缩放过程分开处理, 有点牵强吧, 不过又好像很有道理.

3D Full Attention. 以前的工作单独运用时间和空间注意力来减小计算复杂度, 从text-to-image模型微调. 通过下面这张图片它指出了之前方法存在的问题, 前后相邻的两帧, 人脸在第一个方块但是下一帧移动到了第二个方块, 但是时间注意力只能捕捉到不同时间维度同一位置的信息, 而空间注意力不能捕捉其它时间维度的信息, 这样的视觉交流就需要广泛的视觉信息隐性传递, 增加了计算复杂度. (这个叙述挺精彩的, 刚开始我也被骗到了, 但是前提是模型用了它前面的patchify策略, 据我所知sd v1.5就没有patchify策略, 直接在整个图片上做时间注意力)

CogVideoX-3DFullAttention