Papermotion Customization
CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos
文生动作任务,借助WM的能力,先生成视频再提取动作
Loading...
文生动作任务,借助WM的能力,先生成视频再提取动作

这张图应该从2D Motion Block这里看,这是一个完整的Wan2.2-IT2V-5B模型,看分支箭头的方向,它是只提供控制信号不被其它分支控制的。因此这里的解读是根据text去生成它定义的这种下面的2D Pose视频。
然后再看上面的RGB Video Block,有一个融合的➕符号,它是受2D Motion流动作控制的。初始化时加入Zero Linear进行零初始化是必然的。
最后是中间粉色的block,它利用RGB Block和2D Motion Block的输出去提取SMPLX参数(通过嵌入已升维)
还提了一个CoMoVi 数据集,代码数据集全开源,训练用了24块A100-40G