My App
PaperAvi

When Vision Speaks for Sound

他们发现它们在视频中的音频理解往往是视觉驱动的, 模型依赖于视觉线索来推断或臆想声学信息, 而不是验证音频流. 即模型表面上(错误地)基于音频, 但实际上利用了视听相关性, 而没有验证音频和视频流是否真正对齐. 引入了THUD, 一种基于三种反事实音频编辑的干预驱动探查框架.

Loading...