Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation
causal forcing, 使用AR Teacher进行ODE初始化.
Animate-X: Universal Character Image Animation with Enhanced Motion Representation
当前的animate image方法局限在人类领域, 对拟人的非人类生成不佳, 分析原因是对motion建模不佳, 提出Animate-X. 提出了Pose Indicator, 通过CLIP提取隐式的信息(运动的大致模式, 时间关联性), 通过提前模拟可能的输入增加模型泛化能力. 提出了Animated Anthropomorphic Benchmark.
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
text-to-video的基础模型, 能生成10秒的长视频, fps为16, 分辨率768x1360. 卖点是长视频和文本连贯性. 3D-VAE, expert transformer, 分阶段多分辨率训练, effective pipeline. 结果在生成质量和予以对齐上都有所改进.

