
任务难点: 生活气息, 高质量的视频, 平衡ID保持和动作连续性. 当前工作能解决的问题和限制. 进一步讲述难点并提出解决方案, 方法章节再读.
图片生成: DALL-E, Imagen, 描述Stable Diffusion为: "Notable contributions, well blanced scalability and efficiency". 视频生成: 联合时空建模, StableVideo加入了时间层.
GAN, 伪影 -> DisCo[Diffusion方法] -> MagicPose and Animate Anyone[transformer-based temporal attention modules] -> Champ[four distinct conditions] -> StableAnimator[ID保持] -> Unianimate[长视频, Mamba的线性效率] -> HyprMotion[DiT-base]

输入是参考图和驱动视频(非pose)
前向传播, 反向传播, VAE, 带条件c的损失函数
传统方法使用DWPose提取关节点信息, I1:Fd, 然后可视化为图片Ip, 问题: 1) 不能捕获到图片级别的详细信息, 如运动引起的变形和全局运动模式; 2) 自驱动的重建任务自然的对齐参考图和pose图片, 忽略了它们之间身体形状的差异. 他们提出pose indicator, 包含显式姿态指导(Explicit Pose Indicator, EPI)和隐式姿态指导(Implicit Pose Indicator, IPI).
它为了解决DWPose提取的信息不足的问题, 核心是结合了CLIP和DWPose提取的特征, 通过 N 层堆叠的 Cross-Attention + FFN 模块进行特征提取, 输出是 implicit pose indicator fi.
(Q)使用DWPose从驱动视频 I1:Fd 的每帧提取2D关键点 pd, 通过 Transformer Encoder 编码这些稀疏关键点, 得到 Pose Query qp. 由于单独的pose关键点过于简单, 引入一个可学习的query向量 ql 来补充, 合并得到qm=qp+ql.
(K, V)使用CLIP Image Encoder对驱动视频的每一帧提取特征: fφd=Φ(I1:Fd).(K, V)
它为了解决驱动视频和参考图pose misalignments. 什么pose池, rescale池, 其实要做的事情是对DWPose提取的pose进行随机平移和缩放(λ概率进行rescale), 消除位置和尺寸信息.
在读Animate-X时这里就没太看懂, 发现这个版本它补充了一张图, 勉强清楚了吧, pose对齐是否是平移操作原文没说, 只是说"对齐".
很熟悉了, 直接看method图吧, 用得LoRA微调策略.
为了支持text控制动态背景, 同时维持image animation的质量.
每个训练step, 以概率 1−pti2v 采样动画数据, 训练角色动画任务, 以概率 pti2v 采样文本-视频数据, 训练TI2V任务.
直接混合训练会导致动画质量下降, 因为TI2V任务没有pose引导. 训练角色动画任务时: 更新所有可学习参数(θipi,θepi,θlora). 训练TI2V任务时: 将 Pose Indicator 输出设为 0, 冻结所有pose相关模块, 只更新LoRA 参数 θlora
gpt-4o生成图片提示词, kling AI生成图片和视频, 共500个case, 用DWPose提取pose, 选取其中100个提取效果比较好的.
数据集在互联网上收集了9000个, 补充tiktok和fashion, 还收集了10000个文本-视频对. 基础模型是WanX2.1, 8张H20训练.
感受
它提出的两个点, 感觉能作为pose驱动视频生成这个领域最近的一个趋势, misalign和动态背景, misalign的重点在于生成不对齐的训练数据, 动态背景它是搞了一个联合训练, 直觉告诉我它的效果没有很好, 放的case都不是很明显.