3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

现存的方法通过2D pose或者显式的3D参数模型控制人物动作. 2D的方式不能新视角生成, 显式3D的方式固有的不准确性. 提出隐式, 与视角无关的表示方式, 用单视角, 多视角, 移动镜头多种类型训练数据.

3DiMo-intro

介绍

大模型有强大的空间感知能力, 可控生成是研究重点. 2D的方式将运动绑定到驱动视角, 失去了视角灵活性.

近期使用3D重建来分离运动和摄像机控制, 但是论文认为重建时不准确的, 最终限制了生成器产生空间一致且物理上合理的运动的能力. 详细方法后面再看.

方法

3DiMo-overview

预备知识

LDM, 3D VAE压缩视频, DiT骨架, 自注意力和FFN促进跨模态交互. 还介绍了SMPL和MANO参数化3D动作表示方式.

端到端框架与隐式视图无关的运动控制

驱动视频先经过一个增强来削弱外观信息, 两个motion编解码器(身体一个, 手一个), 用来提取空间动作信息, 与参考图嵌入和代表镜头信息的文本嵌入

数据集和训练策略

数据来源为互联网, 虚拟引擎渲染和开源数据集, 使用qwen2.5 VL和固定相机配置来生成摄像头的文字描述, 训练分了三阶段, 第一阶段单视角, 第二阶段多视角, 第三阶段移动镜头. 然后提到直接把驱动视频注入很难学习到隐式的动作信息, 引入了动作编解码器, 先从驱动视频中提取动作信息再注入DiT.

实验

batch size 64, 训练时间3天. 跟2D和3D驱动的方法比, 没跟其他隐式驱动的比, 记得这种直接由视频驱动的也读过几篇, 指标主要是ID保持和视频生成质量. 而且我发现它动态镜头这个事它说没有方法可以比没做评估. 编解码器的能力也没评估, 真就当端到端放到模型里面打包了.

感受

这不叫隐式端到端啊. 首先前期它是用SMPL-X参数化动作的, 还训练了一个编解码器, 这部分直接用SAM3D这种成熟的姿态估计不行吗. 然后这真的叫端到端吗.

全文废话很多, 所以这篇笔记篇幅很短, 故事写得也很蠢, 我都能换一种表达, 视频驱动人物动画化任务, 从驱动视频中解构出任务的动作和摄像头参数(文本描述), 准备三种数据(单视角, 多视角和移动镜头), 喂给大模型让它学习通过文本控制摄像头参数. 提的几个创新点全扯淡, 这篇不开源数据或模型对我没有任何启发.

学习的点: 驱动视频它做了一个外观增强(颜色抖动和轻量级空间变换)来消除外观信息.

介绍

大模型有强大的空间感知能力, 可控生成是研究重点. 2D的方式将运动绑定到驱动视角, 失去了视角灵活性.

数据集和训练策略

实验

感受

这不叫隐式端到端啊. 首先前期它是用SMPL-X参数化动作的, 还训练了一个编解码器, 这部分直接用SAM3D这种成熟的姿态估计不行吗. 然后这真的叫端到端吗.

学习的点: 驱动视频它做了一个外观增强(颜色抖动和轻量级空间变换)来消除外观信息.

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

介绍

相关工作

方法

预备知识

端到端框架与隐式视图无关的运动控制

数据集和训练策略

实验

On this page

介绍

相关工作

方法

预备知识

端到端框架与隐式视图无关的运动控制

数据集和训练策略

实验