When Vision Speaks for Sound

他们发现它们在视频中的音频理解往往是视觉驱动的, 模型依赖于视觉线索来推断或臆想声学信息, 而不是验证音频流. 即模型表面上(错误地)基于音频, 但实际上利用了视听相关性, 而没有验证音频和视频流是否真正对齐. 引入了THUD, 一种基于三种反事实音频编辑的干预驱动探查框架.

介绍

MLLMs在视频理解方面迅速进步, 然而, 在同时包含视觉和声学信号的视频中, 这些能力可能会模糊真实视听关联与视觉驱动叙述之间的界限. 例如, 当显示一个滑板者撞到混凝土上时, 即使音频证据缺失或不一致, 模型也可能描述出沉重的撞击声. 这种行为通常被解读为多模态感知, 但它可能反映了对视听理解的一种错觉: 模型从它看到的内容预测视频应该发出的声音. 虽然静态视觉-语言模型已知表现为由文本先验驱动的"词袋", 但在动态视听背景下的类似预测捷径仍然未得到充分探索. 这引发了一个核心问题: 当前具备视频处理能力的多模态模型是否真正实现了视听关联, 还是仅仅通过视觉-语义捷径幻想出了声学事件?

Clever Hans Effect in Audio-Visual Grounding

一个具备视频能力的多模态模型如果看似基于音频, 但实际上主要根据视觉线索而不是经过验证的音频证据来产生与声音相关的输出, 那么它就表现出"聪明的汉斯"效应.

这种失败通常被隐藏了, 因为常见的音视频评估保持了使这些捷径有效的自然关联: 吠叫的狗发出叫声, 掉落的物体产生撞击声, 说话的脸发出话语. 因此, 一个模型可以通过识别视觉事件并预测其可能的声音而显得已经进行了对齐, 而不必验证该声音是否实际存在, 同步或物理一致. 这种伪对齐创造了一种多模态理解的错觉, 这是当前评估经常未能揭露的.

引入THUD(Temporal and Hallucination Unmasking Diagnostics), 一种针对有声视频中的视听基础进行探测的干预驱动诊断协议. 对反直觉的进行分类, 筛选case, 评估维度, 像一个benchmark.

method

数据源和物理干预

数据源是Oops数据集, 包含人类无意动作, 例如滑倒, 滑雪摔倒, 物品破碎等等, 的in-the-wild数据集. 为了打破自然视频中视听天然匹配的关联, 对音频应用了三种篡改操作来构建反事实视频, 偏移, 静音和替换, 图示在首图.

标注和偏好对构建

研究人员为每个源视频标注了四个维度的信息: 视觉事件, 视觉发生时间, 音频事件以及音频发生时间.

Gemini 初始标注: 由于 Gemini 支持直接摄入视频并能同时检查视觉和音频流, 因此被用于生成初始的事件和时间标注.
视觉时间戳验证: 研究团队将视频分解为按时间排序的帧单元 (frame units), 并让 GPT 和 Claude 在这些帧序列中定位视觉事件, 以此来验证 Gemini 给出的视觉时间戳.
音频时间戳验证: 由于这需要直接访问声音流, 研究人员通过人工检查来交叉验证 Gemini 预测的音频时间戳.
严格筛选机制: 只有当多方(模型与人工)给出的视觉和音频时间戳在严格的容差范围内达成一致时, 样本才会被自动保留, 存在分歧的样本则必须经过人工检查和纠正, 以确保标签的绝对可靠.

还构建了偏好对用于GRPO训练