因为移动的表现力强, 形式自由, 创作新的舞蹈动画很难, 需要冗繁的手部动画或动作捕捉, 使用计算的方式自动生成舞蹈有多方面的应用: 创作新舞, 游戏交互, 虚拟现实, 神经科学领域关于音乐和移动的研究.
当前方法的效果达不到用户的预期, 指标评估主观且复杂, 有些指标已经证明是有误的.
本工作提出新的SoTA模型EDGE(Editable Dance GEneration), 基于输入的音乐创作实时, 物理合理的动作. 基于DiT, 用JukeBox提取特征, 具有编辑能力. 发现之前评估指标的瑕疵, 提出了新的指标评估与地面的连接.
pose表示. 24关节的SMPL表示方法, 6-DOF旋转角表示, 一个根转换, 每个脚的脚后跟和脚趾, 用01表示是否和地面接触, 一共是24x6+3+2x2=151.
Diffusion框架. 很常见的两个公式:
q(zt∣x)∼N(αˉtx,(1−αˉt)I)
Lsimple=Ex,t[∥x−x^θ(zt,t,c)∥22]
辅助损失. 用于提高在缺乏真实环境下物理真实性, 考虑关节位置, 速度, 脚部速度:
Ljoint=N1i=1∑N∥FK(x(i))−FK(x^(i))∥22
Lvel=N−11i=1∑N−1∥(x(i+1)−x(i))−(x^(i+1)−x^(i))∥22
Lcontact=N−11i=1∑N−1∥(FK(x^(i+1))−FK(x^(i)))⋅b^(i)∥22
L=Lsimple+λposLpos+λvelLvel+λcontactLcontact
采样和指导. 使用classifier-free指导, 在训练过程中有w的概率进行无条件生成, 因此在推理过程中:
x~(z^t,c)=w⋅x^(z^t,c)+(1−w)⋅x^(z^t,∅)
编辑. 通过掩码技术实现, 掩码m∈{0,1}N×151, 用前向传播样本替换已知区域的约束, 说人话就是m为1的部分不进行采样.
生成长视频. 一张正方形的照片, 分为左右两部分, 我永远只提供左边的部分, 让模型去生成右边的部分, 再以新生成的部分作为左边的部分生成新的右边的部分, 由此生成长视频.
模型结构. music特征注入cross attention, 时间步1)与music一起注入cross attention, 2)feature-wise linear modulation (FiLM).

音乐特征提取. 先前的工作只关注舞蹈生成问题, 很少关注舞蹈信号表示本身, 其实它们是同等重要的, 举例在text-to-image领域, 放大text编码比放大diffusion模型更重要. 他们用Jukebox提取音乐特征, 通过内存优化, 可以实现在单GPU上的实时提取.
使用 AIST++ 数据集进行训练和评估,并测试了真实世界音乐输入. 使用 PFC 指标评估物理真实性, 并分析了 FID 指标的缺陷. 通过多项物理合理性, 对齐和多样性基准的定量评估以及大规模用户研究, 证明EDGE在舞蹈质量生成上显著优于现有最佳方法, 并在网站上提供了定性样本.
感受
这篇在第一批论文的粗读列表里, 最近在考虑怎么把音频输入加入Diffusion, 想着找找灵感, 它的故事性差点意思, 但是逻辑性很强, 即使工作量不是很大, 没什么废话, 读下来很舒服, 无愧首次引入difffusion的名声.