推理阶段. 用户输入多个对象的单张图片时, 简单的注意力机制会发生混乱引入回归掩码传播机制, 第一帧用SAM切割, 然后基于后续帧与锚定帧(第一帧及临近帧)之间的特征相似度, 将这个精确的初始掩码逐步, 稳定地传播到视频的后续每一帧中.(其实没太看懂, 好像是说给首帧的mask和驱动信号, 它就可以直接预测后续的mask)

动态加速阶段. 作者发现没必要在扩散模型的全部去噪步数里都进行掩码计算. 通常在最初的几次去噪步骤后, 掩码的形状就已经固定了. 因此, 只要发现相邻两步算出来的掩码差异小于某个阈值, 模型就会直接停止掩码的更新计算, 在后续步骤中使用这个固定下来的掩码.

实验

数据集200个视频-图像对, 基线是一些I2V模型(说是修改了一下让它支持了多对象多运动转移, 没说怎么修改的)

CogVideoX-5B-I2V作为基础模型, 720x480x49, 6块A800上进行.

思考

MASK设计成功引起了我的注意力, 文本特征与视频特征相乘生成注意力图, 原来可以这样利用语义信息, 学到新知识了.

感觉这个实验问题很大, 首先是新任务没baseline硬凑了些baseline, 这就算了, 新任务毕竟是. 在200对数据里有20种motion, 多样性受限.

其次我读到实验部分才理解, 他是per-reference-video optimization范式, 类似DreamBooth, 每一种motion都要单独训练2000步得到特定的motion token, 这样的隐式特征完全没有应用价值啊, 我不如显式估计呢.

我只能说这篇能投出来完全是因为自己提了新任务

Let Your Image Move with Your Motion! – Implicit Multi-Object Multi-Motion Transfer

介绍

相关工作

方法

预备知识

运动解耦掩码注意力

差异化掩码提取机制

实验

On this page

介绍

相关工作

方法

预备知识

运动解耦掩码注意力

差异化掩码提取机制

实验