FlowPortrait-intro

介绍

portrait animation经历了面部关键点 -> 端到端, 以增强视觉保真度和表现力.

引出挑战:

向前工作从头训练, 限制了利用丰富的跨模态先验能力. 于是他们build upon BAGEL, Autoregressive Rectified Flow.
评估指标是主要瓶颈, 分析了当前指标的问题, 引入基于MLLM的评估框架.
统一了建模和评估.

自动化Portrait Animation

现存指标评估的分析

主要依赖低级图像或视频特征中手工制作的特征, 其它常用的度量还包括像素级相似性度量. 它们与人类感知判断的相似性较差.

llm评估的方法

一种是打分, 一种是比较. 他们对比了qwen3-omni和gemini-2.5-pro, 发现qwen标得基本无效, gemini标得更好.

下面这个总结挺好的:

打分:

SAS-SA（单方面，单代理）：根据人工标注标准，单一多语言大型模型提供一个综合评分，范围在[1, 5]之间。
MAS-SA（多方面，单代理）：单一多语言大型模型为唇形同步、表现力和动作分别预测分数，然后平均形成最终得分。
MAS-MA（多方面，多代理）：每个方面由专门的多语言大型模型评估，并将它们的输出汇总成最终判断。

比较：

Direct-Comp：使用单一多语言大型模型对两个视频进行整体性的强制选择比较。
ICL-Comp：通过三个上下文示例增强比较提示——每个评估方面一个——以指导单一多语言大型模型内的更结构化推理。
MA-Comp（多代理比较）：将评估分解到各个方面，其中三个专门的多语言大型模型独立评估唇形同步、表现力和动作，并且第四个多语言大型模型将其决定汇总成最终偏好。

自动评估与人类评估的对齐.

先收集了一个开源数据集, 挑了940个case, 同时让Sonic, Memo, Echomimic输出视频, 这样每个case就有4个视频, 两两配对是6对(他选择了上面比较的方法, 指标就一个"更优"), 标注者3人, 只保留三人结果一致的配对, 最终产生了4501个偏好配对.

他下面要测试的是什么指标与人类偏好更一致, 有传统指标, 大模型指标(比较/打分), 结果是使用gemini 2.5, 基于打分, MAS-MA的准确性最高, 后续使用它.

他们的另一个发现是传统指标测出来的Sonic, Memo, Echomimics三种方法的好坏顺序, 与人类偏好测出来的好坏顺序是不同的, 佐证了传统指标的不足.

训练策略

一阶段sft冷启动, 二阶段强化学习. 冷启动设计flow match原理啥的, 就不看了.

Reinforcement Learning with Flow-GRPO

这里我自己读的话真的云里雾里, 接住了gemini, 这一节的核心在于

Q: 为什么要用 GRPO？ A: 因为它不需要额外的奖励模型，而是通过同一组采样视频之间的“内部竞争”（组内比较评分）来确定哪些视频生成的更好，从而引导模型进化。

Q: 如何适配 Flow 模型？ A: 传统的 Flow 生成太死板（确定性），作者通过加入一点“噪声”（随机采样）让模型敢于去尝试不同的生成路径，再通过奖励函数告诉它哪条路是对的。

reword system设计

只用 MLLM 打分作为奖励会被模型"钻空子", 所以需要设计一个复合奖励来堵住漏洞. (模型发现: 生成抖动/漂移的视频)

GRPO一次生成多个样本, 它需要知道的是每个样本的一个评分, 而不是排名. (对我来说是新知识)

实验

只关心两个维度.

Q. RL训练时怎么设置的超参? A. 组大小是4, 学习率1e-5(比SFT时小4倍), 采样步数15步(SFT时25步), RL阶段不使用CFG.

Q. 实验部分怎么评估? A. 1) LLM打分; 2) 人工评估.

感受

人类偏好评分好像在慢慢成为主流, 它们的发现, 传统指标与人类偏好不同, 复合指标大于单一指标. 字节最近发的论文都是人工评估.

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

介绍

自动化Portrait Animation

现存指标评估的分析

llm评估的方法

自动评估与人类评估的对齐.

训练策略

Reinforcement Learning with Flow-GRPO

reword system设计

实验

On this page

介绍

自动化Portrait Animation

现存指标评估的分析

llm评估的方法

自动评估与人类评估的对齐.

训练策略

Reinforcement Learning with Flow-GRPO

reword system设计

实验