
它们的方法准确率很高, 能有效处理遮挡.
很多工作在经历从卷积到transformer方法的转变, 这篇文章的构思是通过transformer解决3D重建.
具体方法相关章节再看, 最后强调了一下这是一篇system paper, 有一系列的下游应用.
(有价值, 建议直接看原文)
SMPL. 输入姿态参数 θ∈R24×3×3, 形状参数 β∈R10, 输出是mesh M∈R3×6890.
Camera. 用π=(R,t)表示, 其中R∈R3×3表示全局位置, t∈R3 表示translation. 给定这些参数, SMPL空间的点比如X, 能被映射为图片通过 x=π(X)=Π(K(RX+t)), 其中Π是一个具有相机内参K的透视投影. 仅预测t.
HMR. 介绍该任务预测的参数有Θ=[θ,β,π]=f(I), 其中I为输入Image, θ和β为SMPL的pose和shape参数, π是相机参数.

结构是标准的vit结构, 不使用任何特定领域的设计选择, 性能却优于高度定制化的架构和精心设计, 使用ViT-H/16来提取图像token, 一个标准的Transformer解码器, 通过对图像token进行交叉注意力机制输出Θ.
1)2D 损失: 监督预测的 2D 关节投影; 2)3D 损失: 监督预测的 3D 关节位置; 3)判别器: 确保模型预测有效的 3D 姿势.
使用检测器和关键点估计器获取图像的边界框和 2D 关键点. 使用 ProHMR 将 SMPL 网格拟合到 2D 关键点, 得到伪地面真实 SMPL 参数.
PHALP. 基于 HMR 风格的 3D 重建的特征进行跟踪, 使用 BERT 风格的 Transformer 模型进行未来姿态预测和模态补全.
4DHumans. 使用基于采样的外观头部和新的姿态预测器, 将重建和跟踪结合到一个系统中, 并证明了更好的姿态重建可以带来更好的跟踪性能.