Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
现有方法可以完成简单的人体动作控制, 但是扩展到Human-Object Interaction仍是开放的挑战. 方法, benchmark
现有方法可以完成简单的人体动作控制, 但是扩展到Human-Object Interaction仍是开放的挑战. 方法, benchmark
![]()
定义Human-Object Interaction任务: 通过环境感知和文本驱动的人体-物体交互生成能力来增强当前的数字人. 1) 环境感知; 2) 与初始帧保持一致; 3) 跟随文本; 4) 无需额外的物体条件, 根据文本操作场景中的物体.
现存方法分析: 1) 基于音频的方法通常学习声学特征到像素空间的直接映射, 缺乏对物体和环境的显式建模, 从而使复杂的人与物体交互难以控制; 2) 基于姿态的方法提供了显式的控制, 但将规划负担转移给了用户. 这些方法需要预定义的骨骼序列为输入, 这不仅难以获得且成本高昂, 而且往往与参考图像的具体上下文不一致; 3) 主体一致性方法在保持主体身份和实现连贯整合方面表现出色, 但缺乏基于现实交互的机制.
难点: 1) 不仅要求生成包含人与物体互动的视频, 还要求这种互动发生在特定环境中, 并涉及指定的物体; 2) 面临可控性和视觉质量之间的权衡.
![]()
双流结构, PIM(Perception and Interaction Module) and AIM(Audio-Interaction aware Generation Module), 有点像controlnet. 视频用vae编码, text用T5, FLow Matching.
写得花里胡哨, 它承担这样一件事情, 传递动作控制信号, 他的motion是这样定义的, 既包括骨架关键点, 还有物体位置的信息(边界框). 还有一个输入是text, 它希望模型可以根据text和参考图片的motion去补全后面的motion, 然后把信息传递给AIM作为控制信号.
然后又定义了两种任务, 纯动作与动作+物体轨迹. 通过任务嵌入向量和文本嵌入向量统一调节(多加段text呗)
然后后面这个虚拟时间步重映射, 就是把参考图放在第-1帧.
再往后环境感知训练, 设计了三种训练. 1) 给参考图+文本+第一帧动作, 生成后面的动作; 2) 只给参考图+文本; 3) 随机把要生成的动作序列设为1.
语音注入. 使用wav2vec提取音频特征, 前后帧时间窗口, 面部掩码.
动作信息注入. 注入的是PIM中每两层DiT的残差, 因为动作序列与视频序列分辨率不同, 使用双线性插值上采样, 再用线性层零初始化.
训练时有两种数据, 联合生成(pose由PIM的text驱动生成)和外部驱动(pose从gt中提取), 比例是4:1.
PIM预训练, AIM预训练, 然后联合训练(60%: 联合视频-动作生成; 30%: 纯音频驱动; 15%: GT动作驱动).
我现在好好奇它的三个点写的啥啊, 1) 双流DiT框架; 2) PIM, AIM; 3) 多模态控制; 4) benchmark.
引入新的benchmark, case是ai生成的, 引入了新的交互质量指标, 如LLM-base, 手部/物体质量, 像素级交互验证.
感受
包装得很好, 不断的出新定义显得很高大上, 写作思路可以借鉴一下.
方法上有一个残差注入第一次见. text生成pose视频这里很怪啊, 真的能训练好吗, 我保持质疑.