UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation
提出当前pose控制姿态生成的两个问题: 1) ReferenceNet控制增加了计算量; 2) 生成视频的长度受限.
Cross-identity Video Motion Retargeting with Joint Transformation and Synthesis
提出了一种双分支转换合成网络, 用于视频位置重定向, 输入是一段subject视频, 一段motion 驱动的视频, 输出是一段视频, 有subject的外观和驱动视频的动作模式. TS-Net包括基于变形的转换分支和无变形的合成分支, 双重设计结合了基于变形网格的转换和无变形生成的优点, 提高了身份保持和合成视频中遮挡的鲁棒性.
UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework
提出UniMo, 一个联合框架可以根据视频预测3D动作, 也可以根据3D动作生成视频. 难点是实质上的结构和分布差异, 并提出了自己的解决方案. 这么做的意义说为什么什么铺平了道路, 没看懂.
