介绍

HMR是什么, 有哪些应用.

基于图像的方法有哪些进展, 直接应用到视频时, 由于逐帧检测缺乏时间连续性, 重建的人体网格经常波动.

先前工作通过建模时间信息或追踪机制, 根本机制是基于优化的, 需要大量标注视频和精心设计的目标.

预备知识

SAM3是一个物体分割模型, 有propagate和detect两个模块, 输入可以是图片可以是视频, 以视频为例, 当预测到第t帧时, 会综合两个结果, detect是根据当前帧预测的掩码, propagate是根据前一帧掩码预测的结果, 综合这两个结果确定当前帧的掩码.

SAM 3D Body是一个编解码器的结构, 图片编码再解码出特定的shape, 最后过一个MLP, 然后支持了一些辅助信息向2D pose指导生成.

SAM-Body4D-overview

输入是一个视频和N个prompt, N对应视频中的N个人. 然后他的结果包含三个关键组件, 下面依次介绍.

应用了SAM3中的propagation-detection公式.

它借助一个掩码恢复模型检测遮挡, 判断为遮挡需要同时满足两个条件, 1)恢复后的掩码面积比原面积大; 2)重叠面积除以并集面积小于0.7(即重叠面积很小). 若发现了重叠, 对这些样本进行时序分组和像素恢复, 依然是借助掩码恢复模型.

介绍了几种trick, 1) 同一批次中所有人体并行处理; 2) 一些平滑的策略减少抖动.

感觉它推理速度特别慢啊, 要用A100-80GB, 具体时间没说, 只能后面自己试了. 没有消融和定量.

感受

我觉得这篇论文的结构很八股. 任务定义, 任务应用, 先前工作(从我们的method中找1-2个点, 每个点用以前的方法衬托我们工作的意义), 我们的改进, 评估结果.

这篇论文属于工程上的增量, 不新颖但是对我很有用, 要用到源代码所以想着读一下.