VPO: Aligning Text-to-Video Generation Models with Prompt Optimization
针对text-to-video任务的提示词优化, 三个核心的原则: 无害, 准确, 有用. 在技术细节上, 采用两步优化, 1)构建有监督微调数据集, 2)文本层次和视频层次的反馈.
针对text-to-video任务的提示词优化, 三个核心的原则: 无害, 准确, 有用. 在技术细节上, 采用两步优化, 1)构建有监督微调数据集, 2)文本层次和视频层次的反馈.
当前最优秀的text-to-video模型都是在有详细的prompt的数据集上训练的, 但是真实世界的用户输入过于简单, 导致生成的视频质量一般.
当前主流用LLM优化提示词, 但是1)安全担忧2)不准确的提炼3)忽略最终视频的质量, 再次基础上提出无害, 准确, 有用的原则.
接着介绍了框架VPO, 1)在构建数据集阶段, 用LLM构建, 再根据无害, 准确, 有用三个原则进行优化.2)在微调阶段, Direct Preference Optimization (DPO)策略.
讲实验结果, 在多个模型上测试, 超过了diffusion-DPO, 有RLHF(reinforcement learning from human feedback)的潜力.

text level的反馈确保与用户的意图对齐确保安全, video level的反馈确保生成高质量的提示词指导视频生成.
骨干模型是 CogVideoX 和 Open-Sora 1.2. 对于CogVideoX, 使用官方基于GLM-4的提示词优化, GPT4o上下文提示词方法作为基准. 对于Open-Sora 1.2, GPT4o重写方式作为基准.
VBench和MonetBench用于评估text-to-video的质量, GPT4o用于评估提示词对齐, T2VSafetyBench评估提示词安全问题.
接着是text-to-video质量评估, text-level对齐, 安全评估的结果
没有看出内容和这个小标题的关联, 结果展示了提示词优化对于提高视频生成质量对齐用户意图的重要性, VPO和diffusion DPO一起使用可以带来额外的收益.
在前三次迭代时表现提升后趋于稳定--多次迭代不会造成表现下降.
迁移到其他text-to-video模型依然获得很好的表现提升.