Effective Whole-body Pose Estimation with Two-stages Distillation
DWpose(a two-stage pose Distillation for Whole-body Pose estimators) 第一阶段用teacher的中间特征和最终logits监督student, 第二阶段对学生本身蒸馏, 用20%的训练时间微调student头部. 在COCO-WholeBody数据集上达到state-of-the-art, 提供不同大小的数据集以适应不同任务.
DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
讲任务:给一张图片和一段人类 body pose, 生成包含人类和织物的动作(就是说在animated过程中, 衣服花纹保持很好). 讲方法:基础模型是sd(text-to-image), 通过修改结构和微调策略支持添加额外的信号. 讲效果: 在fashion数据集上达到SOTA效果.
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
提出了FlexiAct方法, 实现了在异质场景中灵活控制动作, 允许在不同布局, 视角和骨骼结构之间进行动作迁移, 同时保持身份一致性. 研究引入了RefAdapter, 一种轻量级图像条件适配器, 用于空间结构适应和一致性保持. 另外它们发现去噪过程在低频时间步更关注motion, 在高频时间步更关注外观细节, 因此引入FAE(Frequency-aware Action Extraction), 在去噪过程中直接实现动作提取.
