My App
PaperVideoToAudio

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

给定视频和可选的text, 生成高质量同步的音频. 代替单一的video控制信号, 使用容易获取且长范围的audio-text数据集, 学习audio和语义对齐的样本. 条件同步模块实现视频和音频在帧级别对齐.

Loading...