Papermotion Customization

UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework

提出UniMo, 一个联合框架可以根据视频预测3D动作, 也可以根据3D动作生成视频. 难点是实质上的结构和分布差异, 并提出了自己的解决方案. 这么做的意义说为什么什么铺平了道路, 没看懂.

Loading...

UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation

提出当前pose控制姿态生成的两个问题: 1) ReferenceNet控制增加了计算量; 2) 生成视频的长度受限.

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

讲特点: 支持多信号控制的Talking head generation. 讲方法: 平行多分支, 门控机制, mamba structure保证时间和空间连续性, mask-drop策略.

On this page

介绍方法 3D Motion Tokenizer 统一的自回归框架序列格式设计嵌入层设计位置编码设计训练实验

UniMo-intro

介绍

集成3D动作和2D视频在大量任务上重要(人类视频生成, 动作捕获) -> 3D动作提取, 2D视频生成有哪些工作 -> 但是没有人将这两个任务联合起来, 提了个新任务.

大家现在在研究多模态, 动作和视频/文本/音频结合, 这些都是一种模态到另一种模态, 没有同时具备A->B和B->A能力的.

针对这个任务提了两个难点: 1) 三维运动的主要挑战在于缺乏与二维视频的明确空间对应关系, 这阻碍了通过简单的操作如加法或连接来进行集成; 2) 另一个挑战在于构建3D运动表示, 以便与我们的AR(autoregressive)框架中的视觉信息无缝集成.

方法

UniMo-overview

对任务他有一个定义, 1) image-to-video-and-motion任务, 给一张参考图, 生成T帧的视频 $V_{k=1}^T$ 和相关的动作序列 $M_{k=1}^T$ ; 2) video-to-motion任务, 给定一个视频序列 $V^T_{k=1}$ , 目标是捕获相关的3D动作 $M^T_{k=1}$ .

3D Motion Tokenizer

传统方法的问题: 1) 3D关键点方法: 表示过于简单, 无法充分表达复杂的3D人体运动信息. 2) SMPL(X)参数表示: 需要复杂的预处理: 难以跨数据泛化: SOLAMI将人体拆成多部分, 设计多组VQVAE独立学习, 导致多组token, 增加了复杂度. 3) 时间压缩策略问题. 多数方法压缩时间维度以减少资源消耗, 但会导致motion token与visual token数量严重不平衡.

改进: 1) 直接将完整参数 $C = 63+10+3+3 = 79$ 级联后输入, 通道数 $C = 63+10+3+3 = 79$ ; 2) 第一帧保留绝对位置, 后续帧转为速度(与前一帧的差值), 增强时间连续性, 重建时用前缀和恢复; 3) 用四个独立的1D卷积解码器分别重建 $\theta, \beta, \tau, \phi$ ; 4)设置 $s=1/36$ , 即一帧用36个token表示

统一的自回归框架

借助一下gpt

核心思想：像LLM生成文本一样生成动作

本文的核心洞察是：将视频和动作都离散化为token后，多模态生成问题就变成了序列建模问题，可以用LLM的自回归方式统一处理。

序列格式设计

本文设计了两种任务的序列格式，通过特殊token区分：

V2M任务（视频→动作）：

$[T1]\ [Vt_1\ Vt_2\ ...\ Vt_N]\ [STG]\ [Mt_1\ Mt_2\ ...\ Mt_M]$

$T1$ ：任务标识符，表示V2M
$Vt$ ：视频token（条件）
$STG$ ：生成起始标记，分隔条件和目标
$Mt$ ：动作token（待生成的目标）

I2VM任务（图像→视频+动作）：

$[T2]\ [It]\ [STG]\ [Vt_1]\ [Mt_1]\ [Vt_2]\ [Mt_2]\ ...\ [Vt_N]\ [Mt_M]$

目标序列采用交错格式（视频token和动作token交替出现）
这样设计让模型在生成时能同时利用两种模态的信息

每个 $Vt$ 或 $Mt$ 代表16帧的信息。

嵌入层设计

使用两个独立的可学习embedding层

位置编码设计

采用APE + 双RoPE的组合策略：

1. 绝对位置编码（APE）

作用于整个序列，建模交错模态之间的全局位置关系

2. 分模态旋转位置编码（RoPE）

视觉token：使用3D分解RoPE，同时建模时间和空间维度
动作token：仅使用时间维度的RoPE（因为动作缺乏空间结构）

3. 模态对齐

在RoPE中对齐两种模态的时间位置，实现跨模态的时序对应

最终的Query和Key计算：

$\hat{Q} = (RoPE_m(Q_m) \oplus RoPE_v(Q_v)) + APE(Q_e)$

$\hat{K} = (RoPE_m(K_m) \oplus RoPE_v(K_v)) + APE(K_e)$

其中 $\oplus$ 表示拼接操作。

训练

第一步训练motion Tokenizer, 第二步训练AR模型.

实验

数据集用的Human4DiT-Video, 然后最想知道的训练时间没有, image-to-video-and-motion这个任务我不认可, 定量比较很搞笑, video-to-motion这个任务只和4DHuman比了, 消融实验用来找最佳参数没啥意思.

感受

读完全文都没有解答我的疑问: 模型为什么要同时具备3D动作捕获和2D视频生成的能力, 即使技术可行, 本文提出的这个任务本身是没什么意义的, 更别提对比实验稀烂.

写作也不行, 师兄曾经告诉我论文哪一块写什么内容是有规定的, 不能随心所欲; 叙述也没有说服力, 感觉问题很大中不了啊, 可取之处是为我们提供了一个全新的视角, 用LLM+自回归的方法解决这个问题.