创作新的舞蹈困难又耗时. EDGE基于DiT, 用JukeBox提取音乐特征, 有能力创作实时, 物理合理的舞蹈. 为测量物理合理性提供新的指标, 大的用户学习表明表现超过了SoTA.

介绍

因为移动的表现力强, 形式自由, 创作新的舞蹈动画很难, 需要冗繁的手部动画或动作捕捉, 使用计算的方式自动生成舞蹈有多方面的应用: 创作新舞, 游戏交互, 虚拟现实, 神经科学领域关于音乐和移动的研究.

当前方法的效果达不到用户的预期, 指标评估主观且复杂, 有些指标已经证明是有误的.

本工作提出新的SoTA模型EDGE(Editable Dance GEneration), 基于输入的音乐创作实时, 物理合理的动作. 基于DiT, 用JukeBox提取特征, 具有编辑能力. 发现之前评估指标的瑕疵, 提出了新的指标评估与地面的连接.

方法

pose表示. 24关节的SMPL表示方法, 6-DOF旋转角表示, 一个根转换, 每个脚的脚后跟和脚趾, 用01表示是否和地面接触, 一共是24x6+3+2x2=151.

Diffusion框架. 很常见的两个公式:

q ( { \boldsymbol { z } } _ { t } | { \boldsymbol { x } } ) \sim \mathcal { N } ( \sqrt { \bar { \alpha } _ { t } } { \boldsymbol { x } } , ( 1 - \bar { \alpha } _ { t } ) { \boldsymbol { I } } )

\mathcal { L } _ { \mathrm { s i m p l e } } = \mathbb { E } _ { \boldsymbol { x } , t } \left[ \left\| \boldsymbol { x } - \hat { \boldsymbol { x } } _ { \theta } ( \boldsymbol { z } _ { t } , t , \boldsymbol { c } ) \right\| _ { 2 } ^ { 2 } \right]

辅助损失. 用于提高在缺乏真实环境下物理真实性, 考虑关节位置, 速度, 脚部速度:

\mathcal { L } _ { \mathrm { j o i n t } } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \| F K ( \boldsymbol { x } ^ { ( i ) } ) - F K ( \hat { \boldsymbol { x } } ^ { ( i ) } ) \| _ { 2 } ^ { 2 }

{ \mathcal { L } } _ { \mathrm { v e l } } = { \frac { 1 } { N - 1 } } \sum _ { i = 1 } ^ { N - 1 } \| ( { \boldsymbol { x } } ^ { ( i + 1 ) } - { \boldsymbol { x } } ^ { ( i ) } ) - ( { \boldsymbol { \hat { x } } } ^ { ( i + 1 ) } - { \boldsymbol { \hat { x } } } ^ { ( i ) } ) \| _ { 2 } ^ { 2 }

\mathcal { L } _ { \mathrm { c o n t a c t } } = \frac { 1 } { N - 1 } \sum _ { i = 1 } ^ { N - 1 } \| ( F K ( \hat { \boldsymbol { x } } ^ { ( i + 1 ) } ) - F K ( \hat { \boldsymbol { x } } ^ { ( i ) } ) ) \cdot \hat { \boldsymbol { b } } ^ { ( i ) } \| _ { 2 } ^ { 2 }

{ \mathcal { L } } = { \mathcal { L } } _ { \mathrm { s i m p l e } } + \lambda _ { \mathrm { p o s } } { \mathcal { L } } _ { \mathrm { p o s } } + \lambda _ { \mathrm { v e l } } { \mathcal { L } } _ { \mathrm { v e l } } + \lambda _ { \mathrm { c o n t a c t } } { \mathcal { L } } _ { \mathrm { c o n t a c t } }

采样和指导. 使用classifier-free指导, 在训练过程中有w的概率进行无条件生成, 因此在推理过程中:

\tilde { \boldsymbol { x } } ( \hat { \boldsymbol { z } } _ { t } , \boldsymbol { c } ) = w \cdot \hat { \boldsymbol { x } } ( \hat { \boldsymbol { z } } _ { t } , \boldsymbol { c } ) + ( 1 - w ) \cdot \hat { \boldsymbol { x } } ( \hat { \boldsymbol { z } } _ { t } , \emptyset )

编辑. 通过掩码技术实现, 掩码 $m \in \{0,1\}^{N \times 151}$ , 用前向传播样本替换已知区域的约束, 说人话就是m为1的部分不进行采样.

生成长视频. 一张正方形的照片, 分为左右两部分, 我永远只提供左边的部分, 让模型去生成右边的部分, 再以新生成的部分作为左边的部分生成新的右边的部分, 由此生成长视频.

模型结构. music特征注入cross attention, 时间步1)与music一起注入cross attention, 2)feature-wise linear modulation (FiLM).

EDGE

音乐特征提取. 先前的工作只关注舞蹈生成问题, 很少关注舞蹈信号表示本身, 其实它们是同等重要的, 举例在text-to-image领域, 放大text编码比放大diffusion模型更重要. 他们用Jukebox提取音乐特征, 通过内存优化, 可以实现在单GPU上的实时提取.

使用 AIST++ 数据集进行训练和评估，并测试了真实世界音乐输入. 使用 PFC 指标评估物理真实性, 并分析了 FID 指标的缺陷. 通过多项物理合理性, 对齐和多样性基准的定量评估以及大规模用户研究, 证明EDGE在舞蹈质量生成上显著优于现有最佳方法, 并在网站上提供了定性样本.

感受

这篇在第一批论文的粗读列表里, 最近在考虑怎么把音频输入加入Diffusion, 想着找找灵感, 它的故事性差点意思, 但是逻辑性很强, 即使工作量不是很大, 没什么废话, 读下来很舒服, 无愧首次引入difffusion的名声.