讲贡献: 1) 生成长视频, 无appearance drift和时间伪影; 2) 4K分辨率 3) 语义文本标签作为text输入. 总结: 结果显示在长视频Portrait生成领域实现了SOTA效果, 多样可控.

介绍

定义Portrait image Animation: 从reference portrait生成animate video, 使用多种音频信号如:audio, facial landmark or textual description. 这种技术在广泛的引用场景: 高质量电影, 动画产业, 虚拟助手, 可行化用户服务, 交互式教育, 游戏领域. diffusion-based 推动了这一领域的发展.

介绍了先前的几种方法, VASA-1, EMO, AniPortrait, EchoMimic...

首先是长视频生成, 当前有两种方法: 1) 先将一段长视频切分成许多音频片段, 平行生成, 然后在相邻帧和切片运用appearance和motion约束[需要维护appearance和motion的最小差异, 阻碍了多样性的发展, (读者注)用波浪线比喻每一个片段, 为了将所有clip连都一起, 线条趋于保守平缓]; 2) 将前序帧当作条件指导生成[累计误差].

第二是4K分辨率生成, 第三是增强语义控制, 具体方法在method小节再看.

Preliminaries

LDM, 加噪方法, 去噪loss, crossattn中qkv的计算, 条件表示.

method

Hallo2-overview

Long Duration Animation

Patch-Drop Augmentation. 核心思想是腐蚀先前帧的appearance信息, 只保留motion cue, 确保模型使用参考图的特征来生成appearance, 只使用先前帧的时间动态信息.

关键是一个mask, 分成pxp个patch, 其中r比例的随机区域赋0, 其余区域赋1, 对先前帧做统一的mask.

Gaussian Noise Augmentation. 它说随着生成的进行, 先前的视频帧可能污染appearance或动作, 比如其中有一帧生成不太好, 这种影响会传播到相邻帧, 导致梯度增加, 放大伪影. 为了减轻这种影响, 他们在motion帧中加入高斯噪声, 增强denoiser克服污染的能力.

\hat{\mathbf{z}}_{t-i} = \tilde{\mathbf{z}}_{t-i} + \boldsymbol{\eta}_{t-i}, \quad \boldsymbol{\eta}_{t-i} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})

High-Resolution Enhancement

用了两种方法, codebook和时间层. codebook就一句话引用x论文中的方法, 时间层原理和motion module一样.

后面这个提取输入latent feature的两种方法没看懂, 后面专门去看看它应用的codebook这篇文章吧.

Textual Prompt Control

看上面的图吧, 比我讲要清楚.

network

网络结构自己看图. (wok, 我突然发现用Hallo2的代码很容易复现出EMO, 对于我现在的实验, 用Hallo2作为codebase比用 moore animate anyone要方便)

一阶段正常训练, 二阶段使用了patch drop和高斯噪声增强.

好困, 实验章节就不看了.

感受

它们真的很擅长调研, 思维模式是: 我要解决什么问题, 当前提出过哪些方案, 逐个尝试, 用在新模型上, 找效果最好的, 屡试不爽.

为什么Hallo3比Hallo2要火, 我觉得Hallo2更有学习价值. 为了支持4K生成, 他的方法和x-dance很相似, 在DiT中去学习面部表达收敛太慢了, 我进行降维, 用1D(token化)去表示面部动态, 在DiT只做生成.

高斯噪声增强这里有点在意, 数据增强可以提高模型抗干扰的能力, 虽然教程里见过, 但是在论文里第一次读到.

Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation

介绍

相关工作

Video Diffusion Models

Portrait Image Animation

Long-Term and High-Resolution Video Generation

Preliminaries

method

Long Duration Animation

High-Resolution Enhancement

Textual Prompt Control

network

On this page

介绍

相关工作

Video Diffusion Models

Portrait Image Animation

Long-Term and High-Resolution Video Generation

Preliminaries

method

Long Duration Animation

High-Resolution Enhancement

Textual Prompt Control

network