Papermotion Customization

Real-Time Motion-Controllable Autoregressive Video Diffusion

通过强化学习增强的少步骤AR视频扩散模型, 支持多种控制信号的实时图像到视频生成.

Loading...

Animate-X++: Universal Character Image Animation with Dynamic Backgrounds

Character Image Animation取得长远进步, 提取两点挑战: 1) 只能应用与人类形象, 2) 生成的视频背景是静态的. 针对这两点提出自己的解决方案并提了个benchmaek.

AVControl: Efficient Framework for Training Audio-Visual Controls

集合了深度图, pose, 相机轨迹, audio transformations多种控制条件, 不改变模型结构, 平行canvas.

On this page

介绍相关工作可控视频生成实时视频生成 Alignment for diffusion model 方法预备知识双向attention改causal 强化学习 Self-Forcing vs. Self-Rollout 实验

AR-Drag-intro

介绍

双向DiT允许未来信息影响过去, 导致高延迟, 不允许实时调整控制.

现有AR VDM适合实时控制, 但是主要针对T2V, 在I2V仍然受限, 或者姿态或摄像机运动. 可控AR VDM面临的问题: 1) 累计误差导致质量下降和运动伪影; 2) 更丰富的控制模式要求更强的泛化能力.

指出RL是解决上述问题的必然选择. "与强制像素级重建并限制模型在训练分布内的监督学习不同, RL通过试错探索动作空间并优化策略, 使策略能够泛化到未见过的数据". 介绍了图片领域的工作, 在视频领域的弊端, 1) 确保马尔可夫链性质, forcing的事情; 2) 长决策过程; 3) 奖励模型. 具体方法就后面再看.

相关工作

比较新还是看一下

可控视频生成

文本模态广泛研究, VDM中的视频控制未被充分探索. 运动信号注入(局限于预定义动态) -> 运动轨迹控制(更灵活) -> 自回归的方法未被探索.

实时视频生成

distribution matching distillation(DMD), 高时间步teacher蒸馏低时间步student, 关注结果分布一致; consistency distillation, 也是高时间步teacher蒸馏低时间步student, 关注每一步去噪的路径相同.

指出自回归累积误差的问题, 指出渐进噪声调度, Self-Forcing的方法, 引入提出的Self-Rollout.

Alignment for diffusion model

强化学习后训练展示了强大的有效性. scalar reward finetuning, Reward-Weighted Regression, Direct Preference Optimization(DPO), GRPO, 他们的工作就是把GRPO拓展到了视频上.

方法

AR-Drag-overview

预备知识

Flow matching(速度场), ODE to SDE(常微分方程到随机微分方程), DMD(Distribution matching distillation, 蒸馏的目的是减少时间步).

双向attention改causal

数据整理. 控制信号通过一个自动检测器生成关键点轨迹, 并通过人工筛选, 种类丰富, 泛化能力强.

SFT. 训练一个表现良好的teather, 参考帧作为首帧.

改为自回归. 先是双向attention改自回归, 然后DMD, 高时间步变低时间步, DMD是结果拟合.

Self-Rollout. 解决AR结构训推不一致的问题, 和Self-Forcing好像一样, 维护一个kv缓存, 把先前去噪帧作为casual上下文(代替从teacher获得), 让模型在前序生成效果很差时下一帧生成依然能维持teacher的质量.

强化学习

这章先不看, 强化学习的内容后面想系统了解.

Self-Forcing vs. Self-Rollout

review时被问到了可能, 即使看完它的解释(Self-Rollout是序列化展开, Self-Forcing是非序列化坍塌), 依然不理解区别(好像是说Self-Rollout的KV缓存机制, 上下文是一步步生成的, Self-Forcing用了GPU的并行能力一次生成?).

实验

Wan2.1-1.3B-I2V全量微调, 定义了一个bucket桶大小, 将视频调整到最近的bucket大小.

感受

双向改实时最近还挺火的, 流程一般都是先finetuning, 保证teacher效果, 然后MDM->改AR->缓解累计误差->RL提效果.

延迟要比别人低, 所有指标还要比别人高, 要求还是挺严苛的.