现在是视频生成模型追求外观的保真度但是牺牲了基础的运动学原理学习, 无法生成人体复杂的动作. EchoMotion: 1)拓展了DiT到双分支结构支持不同的模态; 2) MVS-RoPE; 3) Motion-Video Two-Stage Training Strategy. 还提了个数据集HuMoVe, 80,000个视频-动作对

介绍

diffusion和VLM caption模型发展迅速 -> 现存视频生成模型在视频的保真度和时间连续性效果好 -> 现存方法不能生成复杂的人类动作(解剖学伪影, 不自然的关节连接) -> 分析原因:像素级别的重建损失.

先前研究发现这不仅仅是数据规模问题, 是建模运动动态的内在难题 -> 先前研究用2D或3D表示, 1) 依赖控制信号在真实世界中不可得; 2) 即使是3D信息会映射到2D空间, 丢失了重要的3D空间几何信息.

具体方法在相关章节在读.

方法

EchoMotion-overview

联合视频-动作生成

结构. 直接看图很清楚, 传统方法是p(x|y), 它是p(x, m|y), 其中x是视频, m是动作表示, y是text条件. video token和motion token在模型中怎么连接很清楚.

参数化人类动作表示. 将表示分成3组, 3D位置, 6D旋转角(在human in 4D这篇论文中介绍的是9D旋转角, 24x3x3, 懒得去求证)(这里6D没问题, 是为了解决9D的一些问题), human shape, 一个编码器编码, 每帧对应51个token.

Motion-Video Synchronized RoPE. 这里直接问gpt, 就是把motion的位置编码加到了传统的M-RoPE中, 具体位置是在对角线.

MVS-RoPE（Motion-Video Synchronized RoPE）

核心问题

现有的MMDiT架构使用M-RoPE来统一处理文本和视觉模态，但它们没有考虑人体动作与视频之间的内在时间对齐关系。由于视频VAE通常有4倍的时间压缩，视频tokens和动作tokens的时间分辨率不同，需要专门设计位置编码来捕捉这种对应关系。

设计思路

从method的右图可以看到MVS-RoPE的坐标系统设计：

空间维度：视频tokens占据基础的 $(h, w)$ 区域（图中左下角的蓝色网格），而动作tokens被放置在"对角扩展"区域（图中右侧的斜向排列），通过偏移空间索引来区分模态。具体来说，第 $i$ 个动作token的空间坐标是 $(H+i, W+i)$ 。

时间维度：视频tokens使用时间索引 $t$ ，而对应的动作tokens使用缩放后的索引 $t/4$ ，直接编码了4倍时间压缩的对应关系。

数学公式

$\hat{f}^v_{t,h,w} = \mathcal{R}(t, h, w) \cdot f^v_{t,h,w}$

$\hat{f}^m_{t,i} = \mathcal{R}(\frac{1}{4}t, H+i, W+i) \cdot f^m_{t,i}$

其中 $\mathcal{R}(\cdot)$ 是基于输入坐标的旋转位置编码函数。

三个优点

保留预训练知识：视频tokens的位置编码与预训练时完全一致，不破坏已学习的表示
时间同步对齐：1/4缩放显式编码了多帧率关系，确保视频和动作在时间上完美同步
模态可区分性：对角扩展避免了"位置碰撞"，模型可以轻松区分视频和动作tokens

动作-视频两阶段训练策略

阶段一: motion-only pretrain. 这阶段视频分支被冻结和停用.

阶段二: 同时存在以下三种任务, 随机选择, 通过task hint嵌入指导模型. 1) 同时生成视频和动作; 2) 动作作为条件生成视频; 3) 视频作为条件生成动作.

In-Context Classifier-Free Guidance(ICCFG). 针对三种训练范式采用不同的dropout策略

训练范式	文本条件	动作条件	视频条件
Joint Generation	随机drop	随机drop	—
Motion-to-Video	随机drop	随机drop	—
Video-to-Motion	始终drop	—	随机drop

HuMoVe DataSet

之前数据集的问题: 不适应联合动作-视频生成任务, 低质量视频, 冗余背景, 多人物. HuMoVe DataSet特点: 大规模, 高质量, 多场景, 多人物, 包含文本标注, 对应SMPL.

实验

实现细节

在Wan2.1-1.3B和Wan2.2-5B上实验(有点怪, 应该是起初在1.3B上实验效果不好, 后面换到了5B), 一阶段15k step, 二阶段12k step, 总共花了4,000 A100 小时.

文本到视频生成

定量用的V-Bench\V-Bench2.0指标, 不知道为什么只选了其中的四个. 定性实验表明基线违反了运动学约束, 产生了严重的解剖学伪影, 无法执行组合指令.

跨模态比较

计较了动作到视频和视频到动作, 没有文本到动作.

消融实验

Joint Modeling vs. Video-Only Modeling(只有HuMoVe数据集微调); 2) MVS-RoPE Design(它可视化了一个什么注意力分数).

感受

做了一个motion和video的联合分布. 总体思路是text直接去生成人物动作效果差, 模型没办法理解复杂的人物动作 -> 使用pose表示, 但是pose动作在真实世界不可得 -> 还是text到视频, 但使用pose动作辅助(联合)训练(还有一个洞察, 2D pose丢失了重要的空间信息, 所以我们有3D SMPL表示)

这篇论文代表了一种趋势, pose控制信号因为在物理世界不可得, 地位在降低, text模态的地位在增强.

它还没有用到参考图条件, 这样带来的一个好处是背景可以动起来.

EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer

介绍

方法

联合视频-动作生成

核心问题

设计思路

数学公式

三个优点

动作-视频两阶段训练策略

HuMoVe DataSet

实验

实现细节

文本到视频生成

跨模态比较

消融实验

On this page

介绍

方法

联合视频-动作生成

核心问题

设计思路

数学公式

三个优点

动作-视频两阶段训练策略

HuMoVe DataSet

实验

实现细节

文本到视频生成

跨模态比较

消融实验