Papervideo Generation
Video-T1: Test-Time Scaling for Video generation
不改变模型结构的情况下, 通过增加推理时间改善视频生成的质量(Test-Time Scaling).
Loading...
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
提出了一种统一的扩散框架, 可以在一个模型中适应与多模态数据集相关的所有分布. 它能够执行图像生成, 文本生成, 文本到图像生成, 图像到文本生成以及图像-文本对生成, 而无需额外开销, 另外还有一些洞察.
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
针对text-to-video任务的提示词优化, 三个核心的原则: 无害, 准确, 有用. 在技术细节上, 采用两步优化, 1)构建有监督微调数据集, 2)文本层次和视频层次的反馈.

