Paper

dance

When Vision Speaks for Sound

他们发现它们在视频中的音频理解往往是视觉驱动的, 模型依赖于视觉线索来推断或臆想声学信息, 而不是验证音频流. 即模型表面上(错误地)基于音频, 但实际上利用了视听相关性, 而没有验证音频和视频流是否真正对齐. 引入了THUD, 一种基于三种反事实音频编辑的干预驱动探查框架.

Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory

音乐到舞蹈框架: 1) codebook学习有意义的3D pose 序列. 2)GPT组合这些unit为有流利的, 与音乐相关的动作, 3) 节拍对齐奖励函数.