Video Echoed in Music: Semantic, Temporal, and Rhythmic Alignment for Video-to-Music Generation

很经典的叙述方式, 先定义任务, 为视频生成背景音乐, 再讲当前限制, 2点, 分别提出解决方案. 接着将贡献了一个数据集, 以及实验结果. 任务是视频配音, 在音频与视频的对应关系, 节奏对齐两方面有所改善.

VeM-intro

介绍

介绍已经很公式化了, 第一段讲任务的广泛应用, 第二段讲难点, 1) 高保真, 不能一听就知道是ai生成的; 2) 语义对齐, 生成的音乐要合适; 3) 时间同步, 就是卡点.

讲历史, 1) 音乐质量. symbolic representations(限制多样性) -> 波形 2) 语义对齐. 基于规则的视觉约束(对视频理解不足) -> 视觉到文本表述, 转为text to music任务. 3) 时间同步. local semantic and textual timestamps, 更多的工作只是强调视频动态和音乐的旋律对齐.

将相关领域video to audio的研究同时强调时间一致性, 区别在于music表现出内在的节奏周期性, 具有重复的节拍, 要求更长的对齐跨度和更平滑的过渡.

下面就将自己模型的方法, 到对应章节再细看.

方法

VeM-overview

预备知识

音乐表示这个因为我做过比较熟悉, 先把波形转为梅尔频谱, 再用一个编码器压缩信息, 这里它是自己训了一个vae的变体, 我之前用的wav2vec.

接着是Latent Music Diffusion, 这个不需要去了解.

Hierarchical Video parsing

我感觉这属于对视频一个基于规则的理解, 1) 整体的主题; 2) 视频分割; 3) 视频加text标注, 叙事和视觉理解; 4) 时间界限和时长; 5) 帧级别的视觉变化信息, 就是什么时候换场景了. 看method图, 2-4可以抽象出故事板的概念, 第五个是场景变换.(为什么不按场景变化分割呢)

Modality-Specific Video Representation

cross attention在对齐视频和音频表示上已经被证明很高效, 但是时间建模上表现不佳, 因此它们提出storyboard-guided cross-attention. 核心是storyboard和一个mask, 把整个视频分成多个storyboard, 每个storyboard由不同的信息指导. (这里我没法讲的太细, 我自己的理解也不深入, 读完再去补一遍基础知识吧)

Transition-Beat Aligner and Adapter

这个Aligner希望输入是视频的转换节奏, 输出是音乐节奏和视频转换节奏的交集, 有一个二元交叉熵用于训练这个Aligner. 所有Adapter的作用都是一样的, 将时间感知信息输入神经网络.

实验和结论

不是主研究领域就跳过了, 后面它们打算往可编辑领域发展.

感受

按照惯例先对文章全文做一个总结, 我觉得它的总体思路还是对视频做一个细颗粒度的拆分, 给我一段视频, 我先理解这个视频的总体主题情感, 确定下来我要生成的音乐的基调, 然后按照storyboard去进行视频分段, 每一段提取有不同的文本描述, 视频嵌入, 时长信息等等, 分别去指导各段音频的生成(这是cross attention所擅长的).

cross attention不擅长时间建模, 对于beat的对齐, 有Aligner去从视频中提取节奏信息, 后有Adapter将这个信息注入到网络中. 在music to dance任务中有一篇Lodge也是这样做的.

这篇是师兄推荐读的, 想看看从Video-to-Music任务中能不能有什么灵感. 其实暑假读过另一篇MMAudio, 当时也做了一些早期的尝试, 发现走不通. Video-to-Music和Music-to-Vidoe的关系, 在我看来就像是"图片分类任务"和"文本到图片生成任务", "高维到低维"和"低维到高维", 不是一个难度(一个很简单的洞察, 人家输入视频帧数在160到960不等, 我们最长只能支持24帧, 还是用的h20). 启发还是有的,

在介绍章节讲到他们通过为视频生成详细的文本表述, 将Video-to-Music任务转换成了text-to-music任务, 这里提到了text模态, 其实在我第一次读x-dancer时, 有过一个相似的想法, 动作也是可以通过text与音乐建立连接的, 下面是我引用之前的观点

双脚张开, 以脚踝为轴旋转50度, 腰跟随脚踝旋转, 然后双手张开, 微曲, 左手掌心向上, 右手掌心向下, 头偏向右手向前注意到我们对脚, 手部, 头部, 腰部分别进行了表述, 最后表达了一个动作, 从该动作到下一个动作, 我相信也是可以以前一个动作为基础表示的

还记得我们在music to dance video任务中有这样的一个2步工作流, music -> pose -> video. 这里的pose可以换成text, music -> text -> video. 目前没有人做这方面的研究. 老实说我觉得这个想法只应该存在与文字层面, 实际我不会去真的做, "music到text"和"text到video", 这两步都是很不明确的, 不像"music -> pose -> video", 起码pose到video这一步是已经被验证可以做好的. 加text模态的思路做music to dance video的任务, 其实有一篇musedance做过, 卖点是很适合迁移到非人类任务, 但是据我所知它们做的效果并不好.

再补充一个感受, 我觉得我们做得所有这些事情都是锦上添花, 以这个任务为例, 开始做之前一定一定要保证你的基模本身就可以生成听的过去音乐.

了解到了许多其它音频理解的工具, 音频处理方法, 它们在这方面的处理确实会更精细.

节奏信息通过Adapter, 这是目前非常常用的方法.

介绍