RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
可控的Character Animation任务, 解决in-the-wild环境, 它的观点是大模型越来越强大, 提倡通过简单的修改达到理想效果.
可控的Character Animation任务, 解决in-the-wild环境, 它的观点是大模型越来越强大, 提倡通过简单的修改达到理想效果.

Character Animation应用广泛, 然后分析了在开放世界的不尽如意, 举了一些case. 然后给出自己的解决方法.
想说GAN, 然后介绍了DisCo(ControlNet, CLIP注入), Animate Anyone(Unet方法), 等等, 但是在开放场景表现不佳, 指出应该应用强大的原生视频基础模型应对这一挑战.

讲了一下为什么会想到简单修改, 因为Wan2.1过大, 有限的资源难以微调, 还介绍了它们用过的几种微调策略. 另外说了一些细节, 使用了HaMeR, DWPose, SMPL-CS三种姿态估计策略, 使用shifted RoPE代替了RoPE, 并无缝拓展到了Wan-2.1 I2V.
低噪声预热策略. 时间步采样策略对扩散模型的稳定性至关重要, 文本采用的是一种动态的策略, 在初期使用更小的时间步, 在中期采用更大的时间步(与之前读过的一个观点不谋而合, 小时间步关注动作, 大时间步关注网关.).
大批次和小迭代. 大批次是为了稳定训练, 减小噪声对训练的干扰; 小迭代是因为实验观察到训练太久可控性增加但是多样性大大降低, 出现伪影的频率降低.
为了处理不同体态的参考角色, 利用SMPLify-X根据估计的2D关键点和人体轮廓来优化β(SMPL格式中的形态参数).
它的数据集从供应商买的说是, 1M大小, 最终版本是Wan-2.1 T2V 14B训的, 评估在TikTok, UBC和自己提的高难度测试集上做的.
评估做得挺细致的, 指标也很亮眼, 文中还提到了一个评估指标的局限: 由于背景占据了画面的大部分, 即使新生成的内容非常逼真, 新生成的背景与真实背景之间的差异也会导致像SSIM, PSNR, LPIPS这样低级指标的值很低, 本文使用了Vbench-I2V评估指标.
思考
不能是认为, 应该是"我希望"这篇论文代表未来可控Character Animation的一个方向, 充分利用开源视频模型的能力, 通过小成本的微调代价, 在in-the-wild场景达到理想的效果.
因为修改足够简单也没什么好多的, 大道至简, 可以重点关注一下.