EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer
现在是视频生成模型追求外观的保真度但是牺牲了基础的运动学原理学习, 无法生成人体复杂的动作. EchoMotion: 1)拓展了DiT到双分支结构支持不同的模态; 2) MVS-RoPE; 3) Motion-Video Two-Stage Training Strategy. 还提了个数据集HuMoVe, 80,000个视频-动作对
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
任务直接看图片就行, 模仿给定参考集中的主体外观, 并在不同情境下合成新的表现形式. 讲方法: 语义先验嵌入, autogenous class-specific priorpreservation loss. 讲效果: 生成在参考图像中未出现的各种场景, 姿势, 视角和光照条件下的主体. 在多个任务上测试, 均保持主体一致性, 为新的任务Subject-Driven generation提供新的数据集和评估指标.
FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation
talking head generation任务, 使用了强化学习.
