SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
Human Mesh Recovery(HMR)在图片领域效果好, 但是拓展到视频导致时间不连续, 介绍了一种Training-Free的方法解决这个问题.
Human Mesh Recovery(HMR)在图片领域效果好, 但是拓展到视频导致时间不连续, 介绍了一种Training-Free的方法解决这个问题.

HMR是什么, 有哪些应用.
基于图像的方法有哪些进展, 直接应用到视频时, 由于逐帧检测缺乏时间连续性, 重建的人体网格经常波动.
先前工作通过建模时间信息或追踪机制, 根本机制是基于优化的, 需要大量标注视频和精心设计的目标.
SAM3是一个物体分割模型, 有propagate和detect两个模块, 输入可以是图片可以是视频, 以视频为例, 当预测到第t帧时, 会综合两个结果, detect是根据当前帧预测的掩码, propagate是根据前一帧掩码预测的结果, 综合这两个结果确定当前帧的掩码.
SAM 3D Body是一个编解码器的结构, 图片编码再解码出特定的shape, 最后过一个MLP, 然后支持了一些辅助信息向2D pose指导生成.

输入是一个视频和N个prompt, N对应视频中的N个人. 然后他的结果包含三个关键组件, 下面依次介绍.
应用了SAM3中的propagation-detection公式.
它借助一个掩码恢复模型检测遮挡, 判断为遮挡需要同时满足两个条件, 1)恢复后的掩码面积比原面积大; 2)重叠面积 除以 并集面积小于0.7(即重叠面积很小). 若发现了重叠, 对这些样本进行时序分组和像素恢复, 依然是借助掩码恢复模型.
介绍了几种trick, 1) 同一批次中所有人体并行处理; 2) 一些平滑的策略减少抖动.
感觉它推理速度特别慢啊, 要用A100-80GB, 具体时间没说, 只能后面自己试了. 没有消融和定量.
感受
我觉得这篇论文的结构很八股. 任务定义, 任务应用, 先前工作(从我们的method中找1-2个点, 每个点用以前的方法衬托我们工作的意义), 我们的改进, 评估结果.
这篇论文属于工程上的增量, 不新颖但是对我很有用, 要用到源代码所以想着读一下.