
diffision model的研究加速了可控视频生成的发展.
一些运动转移方法使用显式的运动引导, 虽然有效, 需要额外的估计器, 计算成本高昂. 隐式运动方法从参考视频中将运动编码为潜在嵌入或学习参数, 提供更大的灵活性和易用性.
现有运动迁移的方法分为文本到视频和图像到视频两个方向, 集中在一个对象, 一个运动, 多个对象, 对个运动未被探索.
具体method后面再看
显式运动信号有姿态骨架, 光流场, 轨迹; 隐式运动表示模型从参考视频中提取与运动相关的向量, 注意力图或参数, 以实现运动捕捉和转移.
问题定义. 多对象, 对动作的I2V任务, 旨在将不同的运动模式转移到给定的多对象图像上, 使图像中的每个对象根据其对应的参考运动"移动". 要生成一个视频, 视频中有多个人在运动, 每个对象的运动模式从不同的参考视频中去提取.
Motion-based DiT methods. 只需要知道motion token是通过cross attn方式注入的就行.
通过mask设计解决在多对象视频生成中, 不同对象的运动特征相互干扰的问题.
一个是M2X掩码, 负责约束运动特征的注意力范围, 确保运动token只能与属于同一对象的token发生交互, 包括Motion-to-Video和Video-to-Motion.
一个是T2X掩码, 负责约束文本token的注意力范围, 确保描述特定运动的文本token只能关注对应对象的视频token和运动token.
上一节提到注意力机制高度依赖于准确的"对象掩码"来划定范围, 为了在不同阶段高效, 准确地提取这些掩码.
训练阶段. SAM模型逐帧提取非常耗时, 直接利用文本特征与视频特征相乘得到注意力图, 然后取平均值作为阈值进行二值化得到掩码.
推理阶段. 用户输入多个对象的单张图片时, 简单的注意力机制会发生混乱引入回归掩码传播机制, 第一帧用SAM切割, 然后基于后续帧与锚定帧(第一帧及临近帧)之间的特征相似度, 将这个精确的初始掩码逐步, 稳定地传播到视频的后续每一帧中.(其实没太看懂, 好像是说给首帧的mask和驱动信号, 它就可以直接预测后续的mask)
动态加速阶段. 作者发现没必要在扩散模型的全部去噪步数里都进行掩码计算. 通常在最初的几次去噪步骤后, 掩码的形状就已经固定了. 因此, 只要发现相邻两步算出来的掩码差异小于某个阈值, 模型就会直接停止掩码的更新计算, 在后续步骤中使用这个固定下来的掩码.
数据集200个视频-图像对, 基线是一些I2V模型(说是修改了一下让它支持了多对象多运动转移, 没说怎么修改的)
CogVideoX-5B-I2V作为基础模型, 720x480x49, 6块A800上进行.
思考
MASK设计成功引起了我的注意力, 文本特征与视频特征相乘生成注意力图, 原来可以这样利用语义信息, 学到新知识了.
感觉这个实验问题很大, 首先是新任务没baseline硬凑了些baseline, 这就算了, 新任务毕竟是. 在200对数据里有20种motion, 多样性受限.
其次我读到实验部分才理解, 他是per-reference-video optimization范式, 类似DreamBooth, 每一种motion都要单独训练2000步得到特定的motion token, 这样的隐式特征完全没有应用价值啊, 我不如显式估计呢.
我只能说这篇能投出来完全是因为自己提了新任务