
集成3D动作和2D视频在大量任务上重要(人类视频生成, 动作捕获) -> 3D动作提取, 2D视频生成有哪些工作 -> 但是没有人将这两个任务联合起来, 提了个新任务.
大家现在在研究多模态, 动作和视频/文本/音频结合, 这些都是一种模态到另一种模态, 没有同时具备A->B和B->A能力的.
针对这个任务提了两个难点: 1) 三维运动的主要挑战在于缺乏与二维视频的明确空间对应关系, 这阻碍了通过简单的操作如加法或连接来进行集成; 2) 另一个挑战在于构建3D运动表示, 以便与我们的AR(autoregressive)框架中的视觉信息无缝集成.

对任务他有一个定义, 1) image-to-video-and-motion任务, 给一张参考图, 生成T帧的视频Vk=1T和相关的动作序列Mk=1T; 2) video-to-motion任务, 给定一个视频序列Vk=1T, 目标是捕获相关的3D动作Mk=1T.
传统方法的问题: 1) 3D关键点方法: 表示过于简单, 无法充分表达复杂的3D人体运动信息. 2) SMPL(X)参数表示: 需要复杂的预处理: 难以跨数据泛化: SOLAMI将人体拆成多部分, 设计多组VQVAE独立学习, 导致多组token, 增加了复杂度. 3) 时间压缩策略问题. 多数方法压缩时间维度以减少资源消耗, 但会导致motion token与visual token数量严重不平衡.
改进: 1) 直接将完整参数 M=(θ,β,ϕ,τ)级联后输入, 通道数 C=63+10+3+3=79; 2) 第一帧保留绝对位置, 后续帧转为速度(与前一帧的差值), 增强时间连续性, 重建时用前缀和恢复; 3) 用四个独立的1D卷积解码器分别重建θ,β,τ,ϕ; 4)设置s=1/36, 即一帧用36个token表示
借助一下gpt
核心思想:像LLM生成文本一样生成动作
本文的核心洞察是:将视频和动作都离散化为token后,多模态生成问题就变成了序列建模问题,可以用LLM的自回归方式统一处理。
本文设计了两种任务的序列格式,通过特殊token区分:
V2M任务(视频→动作):
[T1] [Vt1 Vt2 ... VtN] [STG] [Mt1 Mt2 ... MtM]
- T1:任务标识符,表示V2M
- Vt:视频token(条件)
- STG:生成起始标记,分隔条件和目标
- Mt:动作token(待生成的目标)
I2VM任务(图像→视频+动作):
[T2] [It] [STG] [Vt1] [Mt1] [Vt2] [Mt2] ... [VtN] [MtM]
- 目标序列采用交错格式(视频token和动作token交替出现)
- 这样设计让模型在生成时能同时利用两种模态的信息
每个Vt或Mt代表16帧的信息。
使用两个独立的可学习embedding层
采用APE + 双RoPE的组合策略:
1. 绝对位置编码(APE)
2. 分模态旋转位置编码(RoPE)
- 视觉token:使用3D分解RoPE,同时建模时间和空间维度
- 动作token:仅使用时间维度的RoPE(因为动作缺乏空间结构)
3. 模态对齐
- 在RoPE中对齐两种模态的时间位置,实现跨模态的时序对应
最终的Query和Key计算:
Q^=(RoPEm(Qm)⊕RoPEv(Qv))+APE(Qe)
K^=(RoPEm(Km)⊕RoPEv(Kv))+APE(Ke)
其中 ⊕ 表示拼接操作。
第一步训练motion Tokenizer, 第二步训练AR模型.
数据集用的Human4DiT-Video, 然后最想知道的训练时间没有, image-to-video-and-motion这个任务我不认可, 定量比较很搞笑, video-to-motion这个任务只和4DHuman比了, 消融实验用来找最佳参数没啥意思.
感受
读完全文都没有解答我的疑问: 模型为什么要同时具备3D动作捕获和2D视频生成的能力, 即使技术可行, 本文提出的这个任务本身是没什么意义的, 更别提对比实验稀烂.
写作也不行, 师兄曾经告诉我论文哪一块写什么内容是有规定的, 不能随心所欲; 叙述也没有说服力, 感觉问题很大中不了啊, 可取之处是为我们提供了一个全新的视角, 用LLM+自回归的方法解决这个问题.