
双向DiT允许未来信息影响过去, 导致高延迟, 不允许实时调整控制.
现有AR VDM适合实时控制, 但是主要针对T2V, 在I2V仍然受限, 或者姿态或摄像机运动. 可控AR VDM面临的问题: 1) 累计误差导致质量下降和运动伪影; 2) 更丰富的控制模式要求更强的泛化能力.
指出RL是解决上述问题的必然选择. "与强制像素级重建并限制模型在训练分布内的监督学习不同, RL通过试错探索动作空间并优化策略, 使策略能够泛化到未见过的数据". 介绍了图片领域的工作, 在视频领域的弊端, 1) 确保马尔可夫链性质, forcing的事情; 2) 长决策过程; 3) 奖励模型. 具体方法就后面再看.
比较新还是看一下
文本模态广泛研究, VDM中的视频控制未被充分探索. 运动信号注入(局限于预定义动态) -> 运动轨迹控制(更灵活) -> 自回归的方法未被探索.
distribution matching distillation(DMD), 高时间步teacher蒸馏低时间步student, 关注结果分布一致; consistency distillation, 也是高时间步teacher蒸馏低时间步student, 关注每一步去噪的路径相同.
指出自回归累积误差的问题, 指出渐进噪声调度, Self-Forcing的方法, 引入提出的Self-Rollout.
强化学习后训练展示了强大的有效性. scalar reward finetuning, Reward-Weighted Regression, Direct Preference Optimization(DPO), GRPO, 他们的工作就是把GRPO拓展到了视频上.

Flow matching(速度场), ODE to SDE(常微分方程到随机微分方程), DMD(Distribution matching distillation, 蒸馏的目的是减少时间步).
数据整理. 控制信号通过一个自动检测器生成关键点轨迹, 并通过人工筛选, 种类丰富, 泛化能力强.
SFT. 训练一个表现良好的teather, 参考帧作为首帧.
改为自回归. 先是双向attention改自回归, 然后DMD, 高时间步变低时间步, DMD是结果拟合.
Self-Rollout. 解决AR结构训推不一致的问题, 和Self-Forcing好像一样, 维护一个kv缓存, 把先前去噪帧作为casual上下文(代替从teacher获得), 让模型在前序生成效果很差时下一帧生成依然能维持teacher的质量.
这章先不看, 强化学习的内容后面想系统了解.
review时被问到了可能, 即使看完它的解释(Self-Rollout是序列化展开, Self-Forcing是非序列化坍塌), 依然不理解区别(好像是说Self-Rollout的KV缓存机制, 上下文是一步步生成的, Self-Forcing用了GPU的并行能力一次生成?).
Wan2.1-1.3B-I2V全量微调, 定义了一个bucket桶大小, 将视频调整到最近的bucket大小.
感受
双向改实时最近还挺火的, 流程一般都是先finetuning, 保证teacher效果, 然后MDM->改AR->缓解累计误差->RL提效果.
延迟要比别人低, 所有指标还要比别人高, 要求还是挺严苛的.