IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation
Character Animation任务, 显式的驱动方法空间不匹配, 身体尺寸不对齐, 隐式的方法身份泄露, 外观纠缠, 提出了一种一维的表示方法.
Character Animation任务, 显式的驱动方法空间不匹配, 身体尺寸不对齐, 隐式的方法身份泄露, 外观纠缠, 提出了一种一维的表示方法.

Character Animation受欢迎, 应用广泛.
回顾了一下技术路线, 早期用GAN, 最近diffusion用在视频生成任务, text条件, image条件, 引出条件控制的问题, controlNet那一套出现, DiT又进一步提升了质量.
讲解耦身份和运动的挑战, 空间布局和外观不一致, 然后调研了一下显式和隐式的方法.
基于扩散模型的视频生成强调效率, 注重时间连贯性和动态场景建模. 早期时间层机制, 帧间注意力机制, DiT的兴起, 使用自注意力建模全局时空依赖.
Character Animation分显式和隐式, 显式使用骨骼点, 对空间敏感, 形状差异过大出现错位, 一些方法使用姿态对齐或隐式指示器, 但难处理复杂的运动场景.
隐式方法在面部动画获得成功, 这类方法很适合捕捉细微的面部变化, 但是难以对多部分身体进行一致性建模. 它说发展出了微调和无需训练的方法, 没看懂感觉不重要. 近期探索了端到端的方法, EfficientMT和X-UniMotion.

它的目的很明确, 我希望从图片中提取的特征, 只包含动作信息, 忽略外观信息, 一阶段训练的目的是获得一个Motion Encoder, 可以从参考图片中提取出动作信息, 忽略外观特征, Motion Decoder和Joint Decoder可以看作中间产物, 是为了构建损失函数.
码本和可学习一维token的作用是相似的, 码本里存储的是经过大规模数据训练出来的"理想化运动基元", 连续的向量包含的信息是无限的, 可能带入驱动视频的外观信息; 在输入层可学习token和图片的token做了拼接, 输出层只取了可学习token的部分, 也是希望通过token数限制, 只携带动作信息.
这一阶段要解决的问题是驱动视频和参考图人物的身材不一致, 位置不一致问题. 解决方法还是借助热力图, Retargeting的目的是从参考图中提取体型和位置信息, 还是借助可学习token, 借助热力图中间信息, 注意这阶段的数据它是借助虚拟引擎生成动作一致, 外观不一致的数据.
有了前两阶段训练的两个提取器, 一个提取动作, 一个做目标的空间重定向, 下一步就是端到端训练了, 注入动作和面部表情, 放开所有参数微调, 采用Flow Matching.
数据集50K视频片段, UE虚拟引擎生成8K对数据, TikTok和自数据外50个数据. 16张GPU, Wan2.2 5B 基础模型.
思考
读过relate work最长得一篇论文.
我又看到注入可学习token的方法了, 也许可以学习一下, 感觉它第一阶段的热力图很难训练, 大家虽然都宣称端到端, 隐式表示, 但都会在训练处理借助显示的动作表示方法来稳定训练.
然后很有启发的一点是: 外观, 动作, 空间位置信息的解耦, 它基本上用的是同一套方法(可学习的掩码标记).