
舞蹈是人类文化重要组成, 跳舞视频在社交媒体受欢迎, AIGC的发展提供先决条件, 所以要研究. 面临两个挑战: 1) 动作合理; 2) 高质量视觉外观, 时空一致性. (这个动机只能给60分嘻嘻)
介绍了3个相关的任务, 1) Music-Driven 3D dance Generation: 次优的虚拟形象--缺失现实的任务, 场景交互, 高保真的人物纹理; 2) pose-driven image animation: pose信号需要手动处理, 耗时. 3) audio-driven talking-head Generation: 主要集中在生成上半身的手势, 生成复杂的全身动作具有挑战性.
方法和数据集到具体章节再看.
intro和related work写得有点烂.
分成了3个子任务, GAN, 自回归, diffusion.
先定义了什么叫Human-Centric Image Animation, 然后分别介绍1) pose-driven image Animation的相关工作和局限; 2) speech-driven image Animation的相关工作和局限; 3) Music-Driven dance video的相关工作, 其中提到x-dancer依赖于2D表示严重限制了模型对舞者动作的理解.

给定音乐和参考图生成跳舞视频, 然后分别讲了动作专家(ME)和外观专家(AE)的作用.
Diffusion. 加噪去噪这些.
Guidance-Free Training. classifier-Free Guidance提供一个knob在多样性和保真度之间取舍, 但是对guidance scale很敏感, 次优的设置导致次优的结果. 他们改编了Guidance-Free Training, 这里问gpt更快
Classifier-Free Guidance (CFG) 与 Guidance-Free Training (GFT)
CFG 是扩散模型推理阶段的一种技术,用于控制生成结果对条件的遵循程度。其核心思想是在推理时同时计算条件输出和无条件输出,然后进行加权插值:
ϵ^=ϵθ(zt,∅)+w⋅(ϵθ(zt,c)−ϵθ(zt,∅))
其中 w 是 guidance scale。w>1 会增强条件的影响,提高保真度但降低多样性。
缺点:
- 每个去噪步骤需要两次前向计算(条件+无条件),效率低
- 对 w 的选择非常敏感,不当的设置会导致生成质量下降(如抖动、动作单调)
GFT 将这种权衡机制移到训练阶段。它让模型直接学习以 β 为索引的插值目标:
xβ=βx^θ(zt,t,c,β)+(1−β)sg[x^θ(zt,t,∅,1)]
训练时 β∼U(0,1) 随机采样,作为额外条件输入。
优点:
- 推理时只需一次前向计算,效率翻倍
- β 作为可控参数:接近0偏向多样性,接近1偏向保真度
- 避免了 CFG 对 scale 敏感的问题
简言之,CFG 是"推理时混合",GFT 是"训练时学会混合"。
然后用了重建损失, 3D joint损失, 速度损失, 足部contact损失, 用权重相加, 方法和bailando一样.
推理. 主要关注Guidance-Free Training里的β参数在推理阶段设置为了0.75.
先通过问GPT了解BiMamba和FiLM的基本概念
Mamba vs BiMamba vs Transformer 注意力机制
假设序列 [x1,x2,x3,x4],要计算位置 4 的输出:
y4=∑i=14softmax(q4⋅ki)⋅vi
直接访问所有位置,计算 4 个注意力权重。
h4→=Aˉ4(Aˉ3(Aˉ2h1→+Bˉ2x2)+Bˉ3x3)+Bˉ4x4
y4=C4h4→
只能看到 x1,x2,x3,x4(过去 + 当前),历史被递归压缩。
前向传递(1→4):
h4→=Aˉ4h3→+Bˉ4x4
后向传递(4→1):
h4←=Aˉ4h5←+Bˉ4x4(其中 h5←=0)
融合输出:
y4=C4(h4→+h4←)或y4=C4[h4→;h4←]
FiLM(Feature-wise Linear Modulation)
核心公式:
FiLM(x)=γ⊙x+β
计算过程:
给定条件向量 c(如 t-β embedding)和输入特征 x:
γ = W_γ · c + b_γ # 线性层生成缩放因子
β = W_β · c + b_β # 线性层生成偏移因子
output = γ ⊙ x + β # 逐元素调制
然后了解一下为什么要用BiMamba. 虽然Transformer在时间建模方面表现出色, 但它本质上是位置不变的, 仅通过位置编码来捕捉序列顺序, 这限制了其对局部依赖性的深入理解. 相比之下, 音乐到舞蹈的生成要求动作之间具有强烈的局部连续性. 由于其固有的顺序归纳偏差, Mamba在建模细粒度局部依赖性方面表现出了强大的性能. 此外, 双向Mamba以前后两个方向处理输入, 能够实现更广泛的表示和对音乐与舞蹈的更深层次理解.
build upon Wan-Animate. 结构上没有什么创新, 我认为它的描述属于训练策略的改进, 对motion强化训练(有效性存疑), 在通过lora微调. method图里面projector应该是纯代码实现, body Adapter用于提取motion信息说是.
MA-data包含两个互补的源: 1) 3D-rendered data. 来自FineDance数据集, 特点是专业, 用于训练动作专家; 2) In-the-wild internet data. 来自互联网, 美学质量高, 用于训练外观专家.
动作质量评估: 用ViTPose从输出视频提取pose, 与原视频比较FID, DIV, BAS. 视频质量评估: 从VBeach选择了一个子集, 包括图片质量(IQ), 美学质量(AQ), 对象一致性(SC), 背景一致性(BC), 动作平滑度(MS), 时间闪烁(TF).
后续想做文本控制的动作生成.
感受
不知道为什么撤稿了, 只要效果不错, 妥妥顶会的.
哥们还是太有实力了, 从去年开始做这个任务, 第一次组会汇报选的三个方向就是intro提到的"Music-Driven 3D dance generation, pose-driven image animation, audio-driven talking-head synthtsis", 在写完FreeDance后确定还是得有pose, 提出了先生成3D表示再映射到2D, 在这篇文章发表前就有文字记录, 只是它用了两个数据集分别训练动作专家和外观专家这个是我没想到的.
我后面要做还是它这种拆分成两个子任务, 它提出的两部分数据集, 定量评估的做法都可以参考. 数据集的处理我觉得是一个可以写的点, 不知道为什么它写得篇幅很少.