Autoregressive Video Generation Without Vector Quantization
提出了一种高效的非量化自回归视频生成方法NOVA, 通过帧间预测和集合间预测, 实现了高效且高质量的视频生成, 无需向量量化. NOVA在数据效率, 推理速度, 视觉保真度和视频流畅度上均表现出优势, 并在文本到图像生成任务上超过了最先进的图像扩散模型, 同时具有更低的训练成本.
LayerFlow: A Unified Model for Layer-aware Video generation
直接看图, 关注三个层次, 透明foreground, 背景, 混合场景, 用户给定每一层的提示词, 模型生成对应的视频. 由此引申出一些变体:分解混合场景, 为foreground增加背景, 为背景增加foreground. 总结工作: 1)从text-to-video的diffusion transformer开始, 把视频按前面提到的3个层次拆分, 叫做sub-clips, 利用层嵌入区分每种clip. 2)高质量数据集的缺乏, 设计了多阶段训练策略.
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
把Rectified flow应用到了实践, 声称表现比diffusion更好. 文本和图片使用分离的参数, 允许双向流的信息流动交流, 可以获得更好的文本理解. 声称这种结构具有可预测的拓展趋势和较低的验证损失, 改善了text to image生成能力, 达到SOTA水平.