EchoAvatar: Real-time Generative Avatar Animation from Audio Streams

语音或音乐驱动的动作生成，流式

EchoAvatar-intro

快速阅读

新任务本身lj，主要是想关注在实时任务背景下，音频怎么提取，方法是怎样的。

离散的方法，动作上下半身各自码本，然后它对音频也做了离散化（音频码本），通过音频和动作的“展平交错”排列成一条单自回归流。再往后就是GRPO做了一个RL。

DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation

任务是舞蹈生成, 介绍问题1)自回归的方法有累计误差, 2)难以捕捉长距离依赖关系, 引入DiffDance, 用了新颖的音频表示, 对比损失对齐motion, 几何损失保证物理合理性, 动态损失权重促进采样多样化.

EDGE: Editable Dance Generation From Music

创作新的舞蹈困难又耗时. EDGE基于DiT, 用JukeBox提取音乐特征, 有能力创作实时, 物理合理的舞蹈. 为测量物理合理性提供新的指标, 大的用户学习表明表现超过了SoTA.