Papermotion Customization

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

现有方法可以完成简单的人体动作控制, 但是扩展到Human-Object Interaction仍是开放的挑战. 方法, benchmark

Loading...

InstructPix2Pix: Learning to Follow Image Editing Instructions

讲任务:给定一个图片和一段提示词, 模型根据指引修改图片. 讲方法:用GPT-3和SD生成一个大的数据集. 讲效果:生成很快.

JoyStreamer: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning

现存Video Avatar model在与文本指令对齐方面表现出局限性, 特别是在大幅度全身运动, 动态摄像机轨迹, 背景转换或人与物交互时. 我们的方法支持复杂的应用.

On this page

介绍方法 Perception and Interaction Module Audio-Interaction Aware Video Generation Multimodal Conditioned Training Strategy 实验

InteractAvatar-intro

介绍

定义Human-Object Interaction任务: 通过环境感知和文本驱动的人体-物体交互生成能力来增强当前的数字人. 1) 环境感知; 2) 与初始帧保持一致; 3) 跟随文本; 4) 无需额外的物体条件, 根据文本操作场景中的物体.

现存方法分析: 1) 基于音频的方法通常学习声学特征到像素空间的直接映射, 缺乏对物体和环境的显式建模, 从而使复杂的人与物体交互难以控制; 2) 基于姿态的方法提供了显式的控制, 但将规划负担转移给了用户. 这些方法需要预定义的骨骼序列为输入, 这不仅难以获得且成本高昂, 而且往往与参考图像的具体上下文不一致; 3) 主体一致性方法在保持主体身份和实现连贯整合方面表现出色, 但缺乏基于现实交互的机制.

难点: 1) 不仅要求生成包含人与物体互动的视频, 还要求这种互动发生在特定环境中, 并涉及指定的物体; 2) 面临可控性和视觉质量之间的权衡.

方法

InteractAvatar-overview

双流结构, PIM(Perception and Interaction Module) and AIM(Audio-Interaction aware Generation Module), 有点像controlnet. 视频用vae编码, text用T5, FLow Matching.

Perception and Interaction Module

写得花里胡哨, 它承担这样一件事情, 传递动作控制信号, 他的motion是这样定义的, 既包括骨架关键点, 还有物体位置的信息(边界框). 还有一个输入是text, 它希望模型可以根据text和参考图片的motion去补全后面的motion, 然后把信息传递给AIM作为控制信号.

然后又定义了两种任务, 纯动作与动作+物体轨迹. 通过任务嵌入向量 $f_{task}$ 和文本嵌入向量 $f_{text}$ 统一调节(多加段text呗)

然后后面这个虚拟时间步重映射, 就是把参考图放在第-1帧.

再往后环境感知训练, 设计了三种训练. 1) 给参考图+文本+第一帧动作, 生成后面的动作; 2) 只给参考图+文本; 3) 随机把要生成的动作序列设为1.

Audio-Interaction Aware Video Generation

语音注入. 使用wav2vec提取音频特征, 前后帧时间窗口, 面部掩码.

动作信息注入. 注入的是PIM中每两层DiT的残差, 因为动作序列与视频序列分辨率不同, 使用双线性插值上采样, 再用线性层零初始化.

训练时有两种数据, 联合生成(pose由PIM的text驱动生成)和外部驱动(pose从gt中提取), 比例是4:1.

Multimodal Conditioned Training Strategy

PIM预训练, AIM预训练, 然后联合训练(60%: 联合视频-动作生成; 30%: 纯音频驱动; 15%: GT动作驱动).

我现在好好奇它的三个点写的啥啊, 1) 双流DiT框架; 2) PIM, AIM; 3) 多模态控制; 4) benchmark.

实验

引入新的benchmark, case是ai生成的, 引入了新的交互质量指标, 如LLM-base, 手部/物体质量, 像素级交互验证.

感受

包装得很好, 不断的出新定义显得很高大上, 写作思路可以借鉴一下.

方法上有一个残差注入第一次见. text生成pose视频这里很怪啊, 真的能训练好吗, 我保持质疑.