My App

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

音频-视觉扩散模型在质量上取得成功, 但是由于双向注意力依赖性导致的高延迟, 阻碍实时应用, 将离线, 双流双向蒸馏成高保真流式自回归生成框架, 解决了这个过程中遇到的一系列问题, 单GPU上达到25FPS.

Loading...