快速阅读

输入是空间音频，音频的种类是环境音，不是音乐/speech，提出数据集，9 小时的动作数据，27 种常见的空间音频场景和 70 多个音频片段，标注了声源位置。

故事大概是在特定空间内，人类对不同的听觉输入会产生不同的反应。为虚拟角色生成逼真的人体动作，使其能够真实地响应环境中的各类声音，不仅是一项备受期待的功能，更对虚拟现实、人机交互、机器人等领域的应用至关重要。

MOSPA-overview

method部分我主要关注怎么提取音频特征，音频是通过放置在演员耳部位置的两个麦克风独立录制的，麦克风连接到了一台 Deity PR-2 录音机上进行收音。主要使用 Python 的音频和音乐信号分析库 librosa 来提取音频特征，提取了非常多不同的特征，说是可以保留空间特征。

模型架构和EDGE很像，额外注入了声源位置（SSL），动作风格信息，然后改了一下损失函数。

点评，最重要的新任务和新数据集。

MOSPA: Human Motion Generation Driven by Spatial Audio