UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework
提出UniMo, 一个联合框架可以根据视频预测3D动作, 也可以根据3D动作生成视频. 难点是实质上的结构和分布差异, 并提出了自己的解决方案. 这么做的意义说为什么什么铺平了道路, 没看懂.
提出UniMo, 一个联合框架可以根据视频预测3D动作, 也可以根据3D动作生成视频. 难点是实质上的结构和分布差异, 并提出了自己的解决方案. 这么做的意义说为什么什么铺平了道路, 没看懂.

集成3D动作和2D视频在大量任务上重要(人类视频生成, 动作捕获) -> 3D动作提取, 2D视频生成有哪些工作 -> 但是没有人将这两个任务联合起来, 提了个新任务.
大家现在在研究多模态, 动作和视频/文本/音频结合, 这些都是一种模态到另一种模态, 没有同时具备A->B和B->A能力的.
针对这个任务提了两个难点: 1) 三维运动的主要挑战在于缺乏与二维视频的明确空间对应关系, 这阻碍了通过简单的操作如加法或连接来进行集成; 2) 另一个挑战在于构建3D运动表示, 以便与我们的AR(autoregressive)框架中的视觉信息无缝集成.

对任务他有一个定义, 1) image-to-video-and-motion任务, 给一张参考图, 生成T帧的视频和相关的动作序列; 2) video-to-motion任务, 给定一个视频序列, 目标是捕获相关的3D动作.
传统方法的问题: 1) 3D关键点方法: 表示过于简单, 无法充分表达复杂的3D人体运动信息. 2) SMPL(X)参数表示: 需要复杂的预处理: 难以跨数据泛化: SOLAMI将人体拆成多部分, 设计多组VQVAE独立学习, 导致多组token, 增加了复杂度. 3) 时间压缩策略问题. 多数方法压缩时间维度以减少资源消耗, 但会导致motion token与visual token数量严重不平衡.
改进: 1) 直接将完整参数 级联后输入, 通道数 ; 2) 第一帧保留绝对位置, 后续帧转为速度(与前一帧的差值), 增强时间连续性, 重建时用前缀和恢复; 3) 用四个独立的1D卷积解码器分别重建; 4)设置, 即一帧用36个token表示
借助一下gpt
核心思想:像LLM生成文本一样生成动作
本文的核心洞察是:将视频和动作都离散化为token后,多模态生成问题就变成了序列建模问题,可以用LLM的自回归方式统一处理。
本文设计了两种任务的序列格式,通过特殊token区分:
V2M任务(视频→动作):
I2VM任务(图像→视频+动作):
每个或代表16帧的信息。
使用两个独立的可学习embedding层
采用APE + 双RoPE的组合策略:
1. 绝对位置编码(APE)
2. 分模态旋转位置编码(RoPE)
3. 模态对齐
最终的Query和Key计算:
其中 表示拼接操作。
第一步训练motion Tokenizer, 第二步训练AR模型.
数据集用的Human4DiT-Video, 然后最想知道的训练时间没有, image-to-video-and-motion这个任务我不认可, 定量比较很搞笑, video-to-motion这个任务只和4DHuman比了, 消融实验用来找最佳参数没啥意思.
感受
读完全文都没有解答我的疑问: 模型为什么要同时具备3D动作捕获和2D视频生成的能力, 即使技术可行, 本文提出的这个任务本身是没什么意义的, 更别提对比实验稀烂.
写作也不行, 师兄曾经告诉我论文哪一块写什么内容是有规定的, 不能随心所欲; 叙述也没有说服力, 感觉问题很大中不了啊, 可取之处是为我们提供了一个全新的视角, 用LLM+自回归的方法解决这个问题.