My App
PaperTakingHeadGeneration

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

讲任务: 把预训练的视频生成模型, 转换为由音乐驱动的角色动画化. 讲方法: 通过在视频生成基础模型中集成一个audio LLM实现自然对话的经历. 讲贡献: 1) 把一个预训练的image-to-video SOTA模型改造成了一个音频驱动的头像生成模型; 2)无限视频流, 无错误累计, 通过蒸馏技术; 3) 高吞吐, 低延时的推理管道.

Loading...