
舞蹈是通用文化表达形式, 传达情感, 编舞需要多年经验, AI方案.
自回归的方法生成长视频面临motion freezing. VQ-VAE引入码本, 固定的latent vocabulary可能限制多样性和表现力. diffusion方法展现了强大的能力. 再讲缺陷, 现有方法难以传达特定风格属性.
检索问题[限制多样性和创造力] -> CNN, RNN, Transformer[motion预测任务, 错误累计, motion freezing] -> VQ-VAE[Bailando, 复杂] -> Diffusion[EDGE, 忽略手部生成]
通常很深的网络, 条件生成(图片生成, 音频生成, 文本生成) -> classifier guidance and classifier-free guidance -> 可控生成(text-conditional image generation, text-to-motion trajectory generation, audio-driven motion generation)
(不是多模态学习, 输入传统机器学习范畴)多任务学习使用共享表示同时训练相关任务. 尽管早期的MTL方法有时表现不如单任务模型, 最近的方法已经克服了这些问题. 介绍了几种方法, 并称该论文联合了其中的两种方法.

三种模态, 舞蹈动作, 音乐和文本.
舞蹈动作采用SMPL格式, 包括关节位置(52个关节 × 6 DOF 旋转表示, R312), 根节点平移(全局位置的3D向量, R3), 脚地接触(双脚脚跟/脚趾的二值接触标签, R4). -> 去噪对象.
音乐采用双层特征融合, 使用Wav2CLIP从原始音频提取 CLIP 风格的语义嵌入, 使用STFT(Librosa)捕捉细粒度的时频特征. ->输入cross attention层.
文本表示示例: 流派标签 "Jazz" → 生成句子 "This is a Jazz type of music." → CLIP 编码为 CE. ->输入FiLM层.
它的背景是这样的, 下面这个损失函数我们很熟悉
L=τ(LS,LJ,LV,LF,LC)
分别为扩散损失, 关节位置损失, 速度损失, 脚地接触损失, 分类损失, τ 是启发式多目标融合函数.
直接加权求和 ∑iwiLi 存在问题: 1) 不同损失的梯度方向可能冲突; 2) 某些损失可能主导优化, 导致其他目标被忽略; 3) 手动调权重困难.
于是它介绍了Nash MTL 策略和Aligned MTL 策略, 算法有点复杂就不细看了.
Nash MTL 策略和Aligned MTL 策略
直觉上Nash MTL 策略自动为每个任务分配权重 αi,使得没有任何任务能通过单方面改变策略获得更好的结果。Aligned MTL 策略通过正交化消除梯度冲突,确保更新方向对所有任务都"公平"。
不预测噪声预测动作, 用掩码实现编辑, 长视频生成的方法和EDGE一样.
FineDance和AIST++数据集, 评估是手部和身体多样性, FID和BAS, 还有就是脚部接触(PFC)和身体contact(PBC).
感受
核心观点是通过引入传统机器学习中的多任务训练方法, 去优化那个联合损失函数.