UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation
提出当前pose控制姿态生成的两个问题: 1) ReferenceNet控制增加了计算量; 2) 生成视频的长度受限.
介绍
广阔应用前景 -> GAN方法 -> Diffusion方法.
讲限制: 1) ReferenceNet增加了训练难度. 2) motion module需要在时间维度二次计算, 限制了生成视频的长度(它这里指的是motion module有一个对帧的位置编码, 一般把它硬编码为长度32, 限制了更长视频的生成, 需要借助时间窗口)
方法

对于限制一, 看图就很好理解, 对于参考图, 提取出pose, 和输入视频(噪声)拼接送入去噪网络. 或者也可以输入视频的第一帧不加噪, 指导视频生成.
对于限制二, 使用Mamba方法, 代替了motion module, 具体怎么实现的没细看, 具有计算复杂度更小, 长视频生成.
感受
我感觉它的改进从效果上提升不大, 甚至还是不如animate anyone. 但是我觉得它这样做效果不变差就行, 因为这个流程很容易迁移到DiT模型, 它们后面确实也这样做了, 开源了UniAnimate-DiT.