EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer
现在是视频生成模型追求外观的保真度但是牺牲了基础的运动学原理学习, 无法生成人体复杂的动作. EchoMotion: 1)拓展了DiT到双分支结构支持不同的模态; 2) MVS-RoPE; 3) Motion-Video Two-Stage Training Strategy. 还提了个数据集HuMoVe, 80,000个视频-动作对
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
任务直接看图片就行, 模仿给定参考集中的主体外观, 并在不同情境下合成新的表现形式. 讲方法: 语义先验嵌入, autogenous class-specific priorpreservation loss. 讲效果: 生成在参考图像中未出现的各种场景, 姿势, 视角和光照条件下的主体. 在多个任务上测试, 均保持主体一致性, 为新的任务Subject-Driven generation提供新的数据集和评估指标.
Human Motion Video Generation: A Survey
包含10个子任务, 生成过程中的五个关键步骤, 输入-计划动作-生成视频-refine-输出, 覆盖视觉, 文本, 音频三个模态, 讨论了大语言模型在其中的潜力和human motion video generation的潜力.
