When Vision Speaks for Sound
他们发现它们在视频中的音频理解往往是视觉驱动的, 模型依赖于视觉线索来推断或臆想声学信息, 而不是验证音频流. 即模型表面上(错误地)基于音频, 但实际上利用了视听相关性, 而没有验证音频和视频流是否真正对齐. 引入了THUD, 一种基于三种反事实音频编辑的干预驱动探查框架.
他们发现它们在视频中的音频理解往往是视觉驱动的, 模型依赖于视觉线索来推断或臆想声学信息, 而不是验证音频流. 即模型表面上(错误地)基于音频, 但实际上利用了视听相关性, 而没有验证音频和视频流是否真正对齐. 引入了THUD, 一种基于三种反事实音频编辑的干预驱动探查框架.
MLLMs在视频理解方面迅速进步, 然而, 在同时包含视觉和声学信号的视频中, 这些能力可能会模糊真实视听关联与视觉驱动叙述之间的界限. 例如, 当显示一个滑板者撞到混凝土上时, 即使音频证据缺失或不一致, 模型也可能描述出沉重的撞击声. 这种行为通常被解读为多模态感知, 但它可能反映了对视听理解的一种错觉: 模型从它看到的内容预测视频应该发出的声音. 虽然静态视觉-语言模型已知表现为由文本先验驱动的"词袋", 但在动态视听背景下的类似预测捷径仍然未得到充分探索. 这引发了一个核心问题: 当前具备视频处理能力的多模态模型是否真正实现了视听关联, 还是仅仅通过视觉-语义捷径幻想出了声学事件?
Clever Hans Effect in Audio-Visual Grounding
一个具备视频能力的多模态模型如果看似基于音频, 但实际上主要根据视觉线索而不是经过验证的音频证据来产生与声音相关的输出, 那么它就表现出"聪明的汉斯"效应.
这种失败通常被隐藏了, 因为常见的音视频评估保持了使这些捷径有效的自然关联: 吠叫的狗发出叫声, 掉落的物体产生撞击声, 说话的脸发出话语. 因此, 一个模型可以通过识别视觉事件并预测其可能的声音而显得已经进行了对齐, 而不必验证该声音是否实际存在, 同步或物理一致. 这种伪对齐创造了一种多模态理解的错觉, 这是当前评估经常未能揭露的.
引入THUD(Temporal and Hallucination Unmasking Diagnostics), 一种针对有声视频中的视听基础进行探测的干预驱动诊断协议. 对反直觉的进行分类, 筛选case, 评估维度, 像一个benchmark.
数据源是Oops数据集, 包含人类无意动作, 例如滑倒, 滑雪摔倒, 物品破碎等等, 的in-the-wild数据集. 为了打破自然视频中视听天然匹配的关联, 对音频应用了三种篡改操作来构建反事实视频, 偏移, 静音和替换, 图示在首图.
研究人员为每个源视频标注了四个维度的信息: 视觉事件, 视觉发生时间, 音频事件以及音频发生时间.
还构建了偏好对用于GRPO训练
SFT和DPO优化.
原始视频作为自然关联的正向对照组, 而干预视频则用于探测声音是否存在, 时间是否同步以及声音是否一致, 报告的核心指标是各个基础维度上的配对准确率, baseline有开源有闭源.
感受
它提出的问题是在理解领域, 即使我上传一个没有音频的视频, 比如汽车飞驰而过, 模型能理解到飞驰的声音, 这可能是对的, 但是模型不应该能理解飞驰的声音.
理解领域, 相当于做了个音视频对齐的benchmark, GRPO. 行文思路就是提出问题, 做benchmark, 轻解决问题.