Paper

video Generation

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

讲任务: 把预训练的视频生成模型, 转换为由音乐驱动的角色动画化. 讲方法: 通过在视频生成基础模型中集成一个audio LLM实现自然对话的经历. 讲贡献: 1) 把一个预训练的image-to-video SOTA模型改造成了一个音频驱动的头像生成模型; 2)无限视频流, 无错误累计, 通过蒸馏技术; 3) 高吞吐, 低延时的推理管道.

AniDoc: Animation Creation Made Easier

视频线稿上色工具, 根据参考角色规格自动将草图序列转换为彩色动画, 模型对参考角色与每帧线稿之间的变化表现出很强的鲁棒性, 甚至可以自动化中间画过程, 用户只需提供一个角色图像以及起始和结束草图, 就可以轻松创建时间上一致的动画.