GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation

这篇和MEGADance要解决的问题很像, 生成特定风格的舞蹈, 音乐+文本提示词联合控制. Diffusion方法.

GCDance-intro

介绍

舞蹈是通用文化表达形式, 传达情感, 编舞需要多年经验, AI方案.

自回归的方法生成长视频面临motion freezing. VQ-VAE引入码本, 固定的latent vocabulary可能限制多样性和表现力. diffusion方法展现了强大的能力. 再讲缺陷, 现有方法难以传达特定风格属性.

方法

GCDance-overview

结构

三种模态, 舞蹈动作, 音乐和文本.

舞蹈动作采用SMPL格式, 包括关节位置(52个关节 × 6 DOF 旋转表示, $\mathbb{R}^{312}$ ), 根节点平移(全局位置的3D向量, $\mathbb{R}^{3}$ ), 脚地接触(双脚脚跟/脚趾的二值接触标签, $\mathbb{R}^{4}$ ). -> 去噪对象.

音乐采用双层特征融合, 使用Wav2CLIP从原始音频提取 CLIP 风格的语义嵌入, 使用STFT(Librosa)捕捉细粒度的时频特征. ->输入cross attention层.

文本表示示例: 流派标签 "Jazz" → 生成句子 "This is a Jazz type of music." → CLIP 编码为 $C_E$ . ->输入FiLM层.

多对象训练策略

它的背景是这样的, 下面这个损失函数我们很熟悉

\mathcal{L} = \tau(\mathcal{L}_S, \mathcal{L}_J, \mathcal{L}_V, \mathcal{L}_F, \mathcal{L}_C)

分别为扩散损失, 关节位置损失, 速度损失, 脚地接触损失, 分类损失, $\tau$ 是启发式多目标融合函数.

直接加权求和 $\sum_i w_i \mathcal{L}_i$ 存在问题: 1) 不同损失的梯度方向可能冲突; 2) 某些损失可能主导优化, 导致其他目标被忽略; 3) 手动调权重困难.

于是它介绍了Nash MTL 策略和Aligned MTL 策略, 算法有点复杂就不细看了.

Nash MTL 策略和Aligned MTL 策略

直觉上Nash MTL 策略自动为每个任务分配权重 $\alpha_i$ ，使得没有任何任务能通过单方面改变策略获得更好的结果。Aligned MTL 策略通过正交化消除梯度冲突，确保更新方向对所有任务都"公平"。

采样

不预测噪声预测动作, 用掩码实现编辑, 长视频生成的方法和EDGE一样.

实验

FineDance和AIST++数据集, 评估是手部和身体多样性, FID和BAS, 还有就是脚部接触(PFC)和身体contact(PBC).

感受

核心观点是通过引入传统机器学习中的多任务训练方法, 去优化那个联合损失函数.

介绍

舞蹈是通用文化表达形式, 传达情感, 编舞需要多年经验, AI方案.

结构

三种模态, 舞蹈动作, 音乐和文本.

舞蹈动作采用SMPL格式, 包括关节位置(52个关节 × 6 DOF 旋转表示,

\mathbb{R}^{312}

), 根节点平移(全局位置的3D向量,

\mathbb{R}^{3}

), 脚地接触(双脚脚跟/脚趾的二值接触标签,

\mathbb{R}^{4}

). -> 去噪对象.

音乐采用双层特征融合, 使用Wav2CLIP从原始音频提取 CLIP 风格的语义嵌入, 使用STFT(Librosa)捕捉细粒度的时频特征. ->输入cross attention层.

文本表示示例: 流派标签 "Jazz" → 生成句子 "This is a Jazz type of music." → CLIP 编码为

C_E

. ->输入FiLM层.

多对象训练策略

它的背景是这样的, 下面这个损失函数我们很熟悉

\mathcal{L} = \tau(\mathcal{L}_S, \mathcal{L}_J, \mathcal{L}_V, \mathcal{L}_F, \mathcal{L}_C)

分别为扩散损失, 关节位置损失, 速度损失, 脚地接触损失, 分类损失,

\tau

是启发式多目标融合函数.

直接加权求和

\sum_i w_i \mathcal{L}_i

存在问题: 1) 不同损失的梯度方向可能冲突; 2) 某些损失可能主导优化, 导致其他目标被忽略; 3) 手动调权重困难.

于是它介绍了Nash MTL 策略和Aligned MTL 策略, 算法有点复杂就不细看了.

Nash MTL 策略和Aligned MTL 策略

GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation

介绍

相关工作

音乐驱动舞蹈生成

Diffusion 模型

多任务学习

方法

结构

多对象训练策略

采样

实验

On this page

介绍

相关工作

音乐驱动舞蹈生成

Diffusion 模型

多任务学习

方法

结构

多对象训练策略

采样

实验