IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation

Character Animation任务, 显式的驱动方法空间不匹配, 身体尺寸不对齐, 隐式的方法身份泄露, 外观纠缠, 提出了一种一维的表示方法.

IM-Animation-intro

介绍

Character Animation受欢迎, 应用广泛.

回顾了一下技术路线, 早期用GAN, 最近diffusion用在视频生成任务, text条件, image条件, 引出条件控制的问题, controlNet那一套出现, DiT又进一步提升了质量.

讲解耦身份和运动的挑战, 空间布局和外观不一致, 然后调研了一下显式和隐式的方法.

方法

IM-Animation-overview

Motion表示

它的目的很明确, 我希望从图片中提取的特征, 只包含动作信息, 忽略外观信息, 一阶段训练的目的是获得一个Motion Encoder, 可以从参考图片中提取出动作信息, 忽略外观特征, Motion Decoder和Joint Decoder可以看作中间产物, 是为了构建损失函数.

码本和可学习一维token的作用是相似的, 码本里存储的是经过大规模数据训练出来的"理想化运动基元", 连续的向量包含的信息是无限的, 可能带入驱动视频的外观信息; 在输入层可学习token和图片的token做了拼接, 输出层只取了可学习token的部分, 也是希望通过token数限制, 只携带动作信息.

空间重定向

这一阶段要解决的问题是驱动视频和参考图人物的身材不一致, 位置不一致问题. 解决方法还是借助热力图, Retargeting的目的是从参考图中提取体型和位置信息, 还是借助可学习token, 借助热力图中间信息, 注意这阶段的数据它是借助虚拟引擎生成动作一致, 外观不一致的数据.

Control信号注入

有了前两阶段训练的两个提取器, 一个提取动作, 一个做目标的空间重定向, 下一步就是端到端训练了, 注入动作和面部表情, 放开所有参数微调, 采用Flow Matching.

实验

数据集50K视频片段, UE虚拟引擎生成8K对数据, TikTok和自数据外50个数据. 16张GPU, Wan2.2 5B 基础模型.

思考

读过relate work最长得一篇论文.

我又看到注入可学习token的方法了, 也许可以学习一下, 感觉它第一阶段的热力图很难训练, 大家虽然都宣称端到端, 隐式表示, 但都会在训练处理借助显示的动作表示方法来稳定训练.

然后很有启发的一点是: 外观, 动作, 空间位置信息的解耦, 它基本上用的是同一套方法(可学习的掩码标记).

介绍

Character Animation受欢迎, 应用广泛.

回顾了一下技术路线, 早期用GAN, 最近diffusion用在视频生成任务, text条件, image条件, 引出条件控制的问题, controlNet那一套出现, DiT又进一步提升了质量.

讲解耦身份和运动的挑战, 空间布局和外观不一致, 然后调研了一下显式和隐式的方法.

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation

介绍

相关工作

方法

Motion表示

空间重定向

Control信号注入

实验

On this page

介绍

相关工作

方法

Motion表示

空间重定向

Control信号注入

实验