包含10个子任务, 生成过程中的五个关键步骤, 输入-计划动作-生成视频-refine-输出, 覆盖视觉, 文本, 音频三个模态, 讨论了大语言模型在其中的潜力和human motion video generation的潜力.

介绍

动画风格, human model -> 写实, 风格化的human movement.

人类为中心的视频生成很受欢迎, talking head, portrait animation, dance video generation. 为了最小化恐怖谷效应(非人实体在外观或行为上越来越接近真实人类, 人类的好感度并不会线性上升, 而是在"几乎像人但又不完全像人"的阶段急剧下降, 产生不适, 怪异, 恐惧甚至厌恶的心理反应)和增强人际交互, 生成photorealistic human motion video是一个热门topic, 涉及human-like的外观, 逼真的动作, 自然的表情.

提到"输入-计划动作-生成视频-refine-输出"这样一个工作流程, 1)输出.可以是音频, 文本和视觉. 2)motion planning. 面部区域和holistic huamn使用完全不同的框架, 通常使用显式的特征映射, 最近一些方法使用LLM. 3)生成视频. 要求身体完整, 动作精准, 高质量输出. 4)refine. 优化手部和面部, 改善生成质量. 5)输出. 加速推理, 追求real time.

通过驱动模态分为三类: Audio-Driven, Text-Driven, Vision-Driven. 存在多种模态驱动时, 遵循Audio>Text>Vision的顺序, 比如audio+text+vision归类到Audio-Driven, text+vision归类到Text-Driven.

调研了200多篇论文, 64个数据集, 分为10个子任务, 5步流程, 总结了常见评估指标和现阶段的问题.

基础知识

生成框架

1)VAE.生成的样本不够清晰, 多样性不足(mode collapse). 2)GANs. 多样性不足. 3)Diffusion Models. 分布覆盖, 易于拓展, 易于训练, 但是计算开销大, 通过LDM优化.

human data representations

humanMotionVideoSurvey-1

Human Motion Planning

note

自己看下来太费劲了, 感觉读完也不会有什么印象, 作者有一个知乎文章总结这篇论文的主要内容, 直接copy过来也算自己读了, 后面我会挑其中代表性论文细读. 源链接

确定驱动源后，动作规划阶段的目标是根据输入信号（如文本、音频）生成符合情境和语义的动作序列或隐空间特征。动作规划方法主要分为两种：特征映射及大语言模型规划方法，由于大部分方法属于特征映射方法，因此特征映射的方法将于第三阶段动作视频生成一并详细阐述，本节主要重点讨论大语言模型为人体动作视频生成的潜力和可能性。

Motion Planning Using Large Language Models

humanMotionVideoSurvey-2

大部分方法主要依赖特征映射，直接学习输入与动作之间的映射关系。然而，这种方法往往难以理解长上下文的复杂语义和情感信息。为了解决上述问题，最新的研究探索了利用大型语言模型（LLMs）进行动作规划的可能性。LLMs具备强大的自然语言理解和生成能力，能够处理复杂的上下文和隐含信息。

Geng等人[17]的工作：他们首次将LLMs应用于人体动作视频生成，利用LLMs分析对话内容，生成听者的合理反应（如微笑、点头）。具体来说，他们输入说话者的脚本和对话意图，LLMs生成听者的动作描述，然后通过特征映射生成相应的动作序列。
AgentAvatar[18]：该方法将LLMs用于一般性的动作规划。首先给定环境概述和角色设置，LLMs生成详细的面部动作描述，然后驱动引擎生成逼真的视频序列。
InstructAvatar[19]：他们设计了一个自动标注流程，利用LLMs生成丰富的指令-视频对数据集。具体步骤为：提取面部动作单元（Action Units, AUs），利用多模态LLMs将AUs转换为自然语言描述，丰富了数据集的语义信息。同时，模型采用基于VAE的架构，将动作和外观解耦，便于分别控制。

总的来说，目前将大模型应用进数字人视频生成的方案可以大致分为两种范式：检索式及特征转换式。第一种检索式，Database中动作片段具有<动作，文本>数据对，大模型输入驱动源信号，由大模型做细粒度的动作描述，并在Database中检索相近动作，用作后续训练或拼接，例如AgentAvatar或Geng et al.的方法。第二种方法是特征转换式，大模型输入驱动源信号后，由大模型生成相关细粒度描述并通过Projection层生成Motion Latent特征，作为生成条件拼入扩散模型，例如InstructAvatar的方法，在此处其实还可以借助Qformer或其他映射方法使得多模态大模型直接生成动作表征。

多模态大语言模型LLMs在动作规划中的应用，带来了以下优势：

能够理解复杂语义：LLMs能够理解上下文、隐喻等复杂的语言现象，从而生成更贴合情境的动作。
能够生成细粒度描述：LLMs可以生成详细的动作描述，便于后续的动作生成模型处理。
能够增强泛化能力：基于LLMs的模型对未见过的输入也有较好的处理能力。

挑战与未来Insight

计算成本高：LLMs的推理过程需要较高的计算资源，可能影响实时性，如何降低大语言模型的推理成本并与动作生成Pipeline融合，提高实时性是未来有希望的一项研究点。
动作控制的理解和精确性：现有方法对人体动作理解不足，通常依赖文本作为与人体动作设计的桥梁。虽然MotionLLM已经起了一个好头能够实现Motion-to-Text，但在实际场景中，仍有大量动作无法被正确理解，因此如何提高大语言模型对人体动作的理解能力，如何确保LLMs生成的动作描述与预期一致，以及探索更有效和新颖的大模型人体动作理解的中间表示形式（如视觉表示、骨骼信号等），也是一项令人澎湃的研究点。
大多数现有数字人视频生成工作没有充分利用LLMs作为动作规划器，潜力未被完全挖掘，但3D骨架任务中已充分使用，例如如FineMoGen、PRO-Motion、AvatarGPT和MotionGPT等能够从文本生成整体人体动作3D骨架。
如何评估LLMs在动作规划中的有效性也是一个关键挑战，即大模型是否真正理解了人体动作并能够感知当前环境下当前驱动源下做什么动作才是正确的。

Motion Planning through Mapping Features

除了LLMs，多数现有方法仍然采用特征映射的方法进行动作规划。这些方法直接学习输入信号（如音频、文本、视觉）与动作序列之间的映射关系，通常使用深度学习模型进行端到端训练。例如，VASA-1[112]通过将语音编码为音频特征，然后利用LDM模型，将音频和文本指令映射到面部运动的潜在空间，生成相应的动作序列。我们将在第三阶段详细阐述以特征映射为主的人体动作视频生成方法。

Motion Modeling and Video Generation

面部驱动 Portrait Animation

输入：面部驱动ID的参考照片Reference Image + 驱动视频（姿态或真实视频）。

输出：符合驱动ID且实现一致驱动动作的人像动画视频。

这些方法对于人体的表征方法的使用主要集中在三种形式，基于关键点KeyPoints的，例如Follow-Your-Emoji，利用表情标注的关键点序列，指导人像动画的生成。该方法采用扩散模型，确保动作的精确对齐和身份的保持。除了关键点外，一些工作利用几何先验信息（如3D模型），指导视频生成，例如OmniAvatar。在目前综合效果下，越来越多人追求实时性和端测的快速部署，例如MobilePortrait，重点关注移动设备的快速推理；如LivePortrait，提出了高效的视频驱动框架，能够实现实时的人像动画生成。

humanMotionVideoSurvey-3

挑战与未来Insight

ID身份保持是非常重要的关注点，不仅仅从整体大致上观感有一致性，一些细粒度的结构例如：嘴巴、鼻子、纹路、眼睛、甚至是眼睑（例如Eyelid Fold Consistency in Facial Modeling这篇工作，关注眼睑生成），每个人都是独一无二的，细微的差异都会导致ID 保持性下降，因此如何细粒度的保持ID身份是重要的研究点方向。
表情逼真和更多控制能力：生成自然逼真的表情，且模型需要能够适应不同的输入图像和表情，具备良好的泛化性能。同时风格化也是一项有新意的研究点方向，可以考虑和makeups结合，在电商领域实现视频试妆，有一定的商业价值。
低成本和低延时/实时推理：低成本推理也是一项研究点，该方向能够整合到在线会议中的风格人像替换，当参会者不便露脸出镜时可以采用，实现脱敏在线会议采访等。因此如何低成本低负载进行快速推理值得深入研究。

全身驱动 Video-Driven Dance Video Generation

输入：全身ID的参考照片Reference Image + 驱动视频（全身真实视频）。

输出：符合驱动ID且实现一致舞蹈动作的视频。

humanMotionVideoSurvey-4

视频驱动的舞蹈视频生成旨在将专业舞者的动作迁移到目标人物上，生成逼真的舞蹈视频。Everybody Dance Now (EDN) 是比较早开始做舞蹈动作迁移视频生成的工作，基于GAN实现视频动作迁移生成，通过提取舞者的姿态序列，将其迁移到目标人物上。

humanMotionVideoSurvey-5

BTDM通过减少运动模糊的方法来提升视频生成一致性，Human MotionFormer则利用层次化的视觉Transformer，捕获全局和局部信息，实现精准的动作匹配。FakeVideo引入了一个情景记忆模块来支持连续学习，并使用面部几何线索来增强面部细节。

挑战与未来Insight

缺乏高帧率的高质量数据。舞蹈动作幅度大，因此运动模糊带来了的问题更大，运动模糊产生的原因通常是前期视频数据采集过程中的帧率低导致，然而，现在的数据集中通常缺少高帧率的舞蹈数据，因此探索60帧甚至120帧的高帧率数据集也是一项重要的研究点方向，此外，数据集舞种有限，例如像中国舞基本缺乏相关训练数据，阻碍了传统舞蹈数字化保护的进程。
降低训练成本。现有方案迁移新的舞蹈姿势或新的舞种，通常需要大量的数据和训练成本，因此开发需要更少的训练样本和可以处理更广泛的舞蹈运动的方法将显著推进这一领域。

全身驱动 Pose-Driven Dance Video Generation

输入：全身ID的参考照片Reference Image + 驱动视频（全身姿态视频）。

输出：符合驱动ID且实现一致舞蹈动作的视频。

humanMotionVideoSurvey-4

当前，基于扩散模型的生成方法在姿态驱动的舞蹈视频生成任务中表现突出。根据生成框架的设计，主要可以分为以下三类：

humanMotionVideoSurvey-6

纯噪声作为主扩散分支的输入

在这种框架中，扩散模型的主分支输入是纯噪声，而参考图像和姿态序列分别通过不同的网络进行编码，然后与主分支的特征进行融合。具体又可以细分为两种方式：

方式A1（如MagicPose、MagicAnimate、TCAN）：参考图像通过一个与主扩散模型类似的U-Net网络（称为ReferenceNet）进行编码，提取外观特征；姿态序列则通过ControlNet编码，提供姿态指导。

方式A2（如DreaMoving ）：参考图像通过一个特征编码器（通常是多层卷积网络）进行编码，降低了模型的复杂度和计算开销。

纯噪声输入可以产生更丰富、多样的生成结果，同时利用了预训练模型的先验，生成质量较高。但是缺点也比较明显，对预训练模型的依赖较强，可能限制模型的可控性和定制化能力，由于输入是纯噪声，模型也需要更多的计算资源进行训练和推理。

参考图像加噪声作为主扩散分支的输入

在这种框架中，参考图像在加入适当的噪声后，作为主扩散模型的输入。姿态序列则通过ControlNet或特征编码器进行编码，提供动作指导。这种方法的代表有：

方式B1（如DisCo、STSA 、PoseAnimate）：姿态序列通过ControlNet编码，增强了对动作的控制力。

方式B2（如DFBM、IDOL）：利用特征编码器来编码姿态序列，实现姿态和外观特征的融合。

参考图像的直接输入有助于保持人物的身份特征和外观细节，相对于纯噪声输入，模型的收敛速度更快，训练更稳定。但是对于复杂的动作和姿态变化，可能存在生成质量下降的风险，并且需要在加入噪声的程度和方式上进行细致的调整。

姿态条件加噪声作为主扩散分支的输入

在这种框架中，姿态序列在加入噪声后，直接作为主扩散模型的输入。参考图像通过特征编码器或ReferenceNet进行编码，提供外观特征。这种方法的代表有：

方式C1（如MotionFollower、UniAnimate 、MimicMotion）：参考图像通过特征编码器编码。

方式C2（如Animate Anyone、VividPose、Follow-Your-Pose v2、Champ）：参考图像通过ReferenceNet编码，实现更细致的外观特征提取。

直接将姿态条件输入主扩散模型，有助于增强对动作的控制，并且保留了参考图像的细节特征，有助于身份保持。但是缺点也是比较明显，对原参考图像的身份保持能力也会下降，对动作准确性输出产生影响，也可能需要更多的计算资源。

humanMotionVideoSurvey-7

在扩散模型的基础上，不同的方法还引入了各种注意力机制，以增强模型的性能。这些注意力机制主要包括：

空间注意力（Spatial Attention，SA）：用于捕捉图像中的空间特征，关注不同位置的像素信息。
交叉注意力（Cross Attention，CA）：用于将条件信息（如姿态序列、外观特征）与主扩散模型的特征进行融合。
时间注意力（Temporal Attention，TA）：用于捕捉视频帧之间的时间相关性，确保动作和视觉特征在时间上的连贯性。
跨帧自注意力（Cross-Frame Self-Attention，CFSA）：扩展了传统的自注意力机制，允许在不同帧之间进行信息交互，增强时间一致性。

由图所示，不同的方法在注意力机制的应用上有所区别。基本上可以分类为五种魔改组合类型：

SA-CA-TA：这种结构沿用了animatediff的基础方法，在主扩散模型中先进行空间自注意力，然后是交叉注意力，最后通过时间注意力确保帧间一致性。DisCo、DreaMoving、MotionFollower、MimicMotion等方法采用了这种方式。其中MimicMotion针对手部区域的细节处理，提出了手部区域增强策略；利用特征编码器编码参考图像，减少了模型的计算成本。在手部动作的细节上有明显的提升，生成的视频更加逼真、自然。
SA&SA-CA-TA：引入了双重空间自注意力，以更好地融合ReferenceNet和主扩散模型的特征，这是一种层次化注意力机制的方法。MagicPose、Animate Anyone、MagicAnimate、TCAN、Follow-Your-Pose-V2、Champ等方法采用了这种方式。其中Animate Anyone引入的空间、交叉和时间注意力机制，能够生成高保真度的舞蹈视频；利用ReferenceNet编码参考图像的外观特征；采用两阶段训练策略，先训练单帧图像的生成，然后固定空间模块的参数，训练时间模块。 MagicPose也提出类似的两阶段训练策略，首先预训练外观控制模块，然后学习与外观解耦的姿态控制；利用ControlNet编码姿态序列，增强对动作的控制。
SA-CA-CA-TA：这个结构另外增加了一个交叉注意力层，以增强对多个条件信息的控制。Hallo采取了这种策略。
SA-CA&CA-TA：通过层级化的交叉注意力，增强对关键细节（如面部特征）的捕捉，使用分层交叉注意层来增强面部语义，从而提高ID身份的一致性。VividPose采用了这种方法。
CFSA-CA&CA-TA：使用跨帧自注意力，增强帧间的联系和一致性。Follow-Your-Pose-V1、PoseAnimate 采用了这种方式。

挑战与未来Insight

现有方法都面临着帧间抖动、整体人体完整性低、模糊等问题。从目前的方法及实验初步也可以看出，分离前景和背景，与图像和视频的混合训练，以及结合3D信号，可以增强在视频中的整体人体的完整性。如何合成稳定人体结构的视频，是最核心重要且需要长期努力的研究方向。
目前现有方法往往需要大量的数据来进行长期训练，从而导致成本很高，一般情况下训练数据大概在200小时可以将效果收敛趋于稳定，但目前相关数据都是各个机构自行收集，由于隐私或竞争因素不愿公开，因此各个复现机构都在重复造轮子收集数据和走数据预处理流，并且使用不同的训练集在相同测试集上进行评估存在不公性。因此，如何收集并开源大型200小时以上的数据集供科研社区使用并统一Benchmark也是一项重要的研究点。
目前大多数方法依赖于基于U-Net结构的扩散模型，受益于开源的Stable Diffusion预训练权重。然而，新的视频生成backbone还没有被充分探索，比如基于自回归架构的方法。

全身驱动 Try-On Video Generation & Pose2Video

试穿视频生成是视频生成任务中的一个令人感兴趣的领域。近期的一篇综述（Image-based virtual try-on: A survey）讨论了当前虚拟试穿技术的发展。我们简要提及了近期的一些试穿方法，如 ViViD、Tunnel Try-On 和 WildVidFit。Pose2Video则关注根据给定的姿态序列生成对应的人物视频，超越了舞蹈场景，涵盖更广泛的人体运动。Make-Your-Anchor 的工作在不需要大量训练数据的情况下，实现了对躯干和手部细节的精确建模。DreamPose 则通过引入姿态和图像的引导，同时生成人体和衣物的运动。

面部文本驱动 Text2Face

输入：文本信号 + 参考ID视频

输出：符合ID身份且满足文本信号的驱动视频

Text2Face 是指根据输入的文本生成对应的人脸动画。这种任务的目标是通过对文本内容的理解，生成在视觉上与文本描述相匹配的面部动画。文本输入可以是第一人称的台词（如角色的对白）、也可以是第三人称的描述或指令（如对面部表情或动作的描述）。Text2Face 的研究有着重要的应用价值。例如，可以用于动画制作、虚拟主播、数字人等场景，使得角色的面部表情和动作能够根据脚本自动生成，提升制作效率和效果。

humanMotionVideoSurvey-8

（A）第一种方法通常情况下是借助了Audio-Driven的方案，将文本台词通过TTS模型转换为声音，再和Talking Head相关的方法进行组合，例如Wang et al.的方法，这种工程性方法暂不做细粒度阐述。

（B）两阶段方法：首先将文本转换为中间表示（如音频、关键点、3D参数），然后再根据中间表示生成对应的人脸动画。例如Write-a-Speaker，该方法首先将文本输入转换为与语音对应的3D参数，这些参数包括面部表情、口型等信息。然后，根据这些3D参数，合成对应的说话人脸视频。NEUTART方法在生成面部动画的同时，还生成对应的音频。为了确保口型与生成的语音同步，作者使用了唇读损失（lipreading loss）来提取唇部特征。

（C）端到端方法：FT2TF为了避免两阶段方法中可能出现的误差累积，作者提出了一个端到端的框架，直接从文本和参考图像生成对应的面部动画。设计了一个多尺度的交叉注意力机制，可以在不同的尺度上融合文本和视觉特征。模型学习到了从文本直接到图像的映射关系，实现了端到端的人脸动画生成。

全身文本驱动 Text2MotionVideo

输入：文本提示（Text Prompts），包括描述动作、情感、场景等的文字信息（ + 参考ID的视觉信号）

输出：根据文本描述生成的动态人物视频。

Text2MotionVideo 可以大致分为两类：

身份保持（Identity-Preserved）：生成的视频人物保持输入图像或视频中的身份特征，确保人物的外观一致性。

基于此一般有多条件控制方法和纯文本信号方法，当存在其他显式条件（如关键点、深度图、DensePose 等）来控制动作时，文本的作用往往受到限制，需要与这些条件紧密配合：

Zuo 等人 [47]：提出了一个双管道方法，将源视频的身份与参考视频的关键点动作相结合，文本描述固定为源和目标的提示。模型需要同时处理身份、动作和文本信息的融合。

Wang 等人 [131]：设计了一个空间-时间条件编码器，可编码多种条件信息，包括文本、图像等，提高了控制的灵活性。但文本输入需要与图像紧密相关，才能取得更好的效果。

Zhang 等人 [140]：采用了两阶段方法，首先将多模态输入转换为控制信号（如人体姿态、深度、DensePose），然后利用这些信号进行视频生成。文本在这里主要提供辅助信息。

而纯文本指导方法，在没有其他显式条件的情况下，文本提供了一般性的动作指令，模型需要直接根据文本生成对应的人体动作视频。

Guo 等人 [4]：提出了 AnimateDiff，可将任何个性化的文本到图像（T2I）模型扩展为视频生成。通过将文本嵌入与时间维度上的运动特征相结合，实现了从文本到视频的生成。

AnimateZero [143]：通过替换原始文本到视频模型中的全球时间节点为位置校正窗口，并利用 T2I 生成的中间潜在嵌入，实现了空间外观控制和时间一致性。

Renshuai 等人 [49]：针对细粒度的情感表达扩展，从8个情感指标扩展到135个详细的情感描述。提出了一个框架，可同时控制身份、表情和背景，实现了对细粒度情感的精确控制。

身份转移（Identity-Transferred）：生成的视频人物身份可能改变，关注的是动作和内容的一致性，而非人物的外观。在身份转移的方法中，模型主要关注生成动作和内容的一致性，而不强调人物外观的保持。这一类方法通常致力于提高视频生成的稳定性和一致性。

Liu 等人 [147]：提出了一个双流扩散网络，改进了视频生成中的空间变化一致性。

Ren 等人 [148] 和 Geyer 等人 [25], [145]：通过引入额外的模块和在帧间强制语义对应，增强了时间一致性，确保背景的连贯和动作的流畅。

另外，相关研究还提出了免训练方法：Shi 等人 [139]：提出了 BIVDiff，一个无需训练的框架，利用图像扩散模型进行视频合成。Yang 等人 [173]：提出了 ZeroSmooth，一种用于生成视频扩散模型的免训练视频插值方法。这些方法旨在降低生成视频的成本，提高生成效率，使得文本驱动的视频生成更具实用性。

挑战与未来Insight

文本表达的限制：复杂的动作和细微的情感变化可能难以通过简短的文本准确描述，导致生成的动作与预期不符。在结合文本、图像、姿态等多种条件时，如何有效地融合这些信息，避免冲突和信息丢失，是一个难点。
生成质量的平衡：在保持时间一致性、空间一致性和视觉质量的同时，确保对文本描述的准确映射，是一项具有挑战性的任务，目前通用视频生成领域Text2Video已经初步有一些进展。
为了降低训练成本，一些研究方法提出免训练迁移方法，但目前免训练方法的控制能力还较弱，生成的视频效果相对较弱。如何进一步降低训练和推理成本也是一项重要的研究点之一。

音频驱动的人体动作视频生成是指利用音频信号（如语音、音乐等）生成与之对应的人体动作视频的技术。这一领域涵盖了唇形同步（Lip Synchronization）、头部姿态驱动（Head Pose Driving）、细粒度风格和情感驱动（Fine-Grained Style and Emotion-Driven Animation）、音频驱动的全身动作生成（Audio-Driven Holistic Human Driving），以及多语言配音（Multilingual Video Dubbing）等多个子任务。

音频作为输入信号，具有丰富的时间序列信息，包含语音内容、情感、节奏和韵律等特征。通过捕捉和解码这些信息，可以生成与之匹配的面部表情、口型、头部运动、手势和全身动作。这为构建逼真的虚拟数字人、虚拟助理、虚拟主播等应用提供了技术支持。

humanMotionVideoSurvey-9

在音频驱动任务中主要有两种核心建模范式，一种是显式建模，通过音频Audio建模与显式人体表征的关联关系，再从中间显式人体表征合成视频。例如：Audio2Landmark、Audio2Flow、Audio2Pose、Audio2FLAME、Audio2Mesh等；另一种建模方式是隐式建模，通过高维表征直接合成视频帧，接用对比学习、高维表征交叉注意力机制融合、拼接其他特征等方式，直接合成视频帧。

音频驱动Lip Synchronization

唇形同步旨在根据输入的音频信号，生成与之匹配的唇部动作，使得人物的口型与语音内容高度同步。这对于构建逼真的说话人脸视频至关重要。

humanMotionVideoSurvey-10

Cudeiro 等人的 VOCA 方法：利用 3D 人脸模型（如 FLAME 模型）显式地建模语音与唇部动作之间的关系。通过将音频特征映射到 3D 面部网格的变形参数，实现唇部和面部动作的生成。ATVGnet：采用级联生成对抗网络（GAN）的方法，首先生成粗略的唇部区域，再细化到高分辨率。通过解耦语音中的内容相关和非内容相关特征，提高了模型在不同面部形状和视角下的鲁棒性。

Wav2Lip 是非常经典的模型，利用 GAN 框架，直接从音频和参考视频帧中生成精确的唇部动作。该模型引入了唇部同步判别器，专门评估生成的视频是否与音频同步。但是纯做嘴唇同步时往往不够的，头部姿势在说话过程中也会伴随一些运动，因此相关工作开始推广到Head Pose Driving任务。

音频驱动Head Pose Driving

根据音频信号，生成对应的头部运动和面部表情，使得人物在说话时，头部动作与语音内容、情感相符合。

humanMotionVideoSurvey-11

头部姿态驱动的工作有很多，主要可以分为几类：

基于显式特征建模的方法

最早Greenwood 等人使用 Bi-LSTM 模型，从音频预测头部姿态参数，生成头部的旋转和位移。他们使用了条件变分自编码器（Conditional Variational Autoencoder，CVAE）从语音信号预测头部姿态参数。具体而言：从音频中提取低级特征，如梅尔频谱倒谱系数（MFCC）,将头部姿态表示为欧拉角度或四元数，作为模型的目标输出。使用 CVAE 进行建模，能够捕捉音频与头部姿态之间的概率分布关系。最后通过最小化重构误差和 KL 散度，学习从音频到头部姿态的映射。

MakeItTalk 利用 Transformer 模型，捕捉音频与面部关键点之间的长距离依赖关系，生成自然的头部和面部动作。MakeItTalk 提出了一种基于音频和面部关键点的说话人脸动画生成方法。通过显式地预测面部关键点位置，包括头部姿态和表情变化，从而生成同步的口型和头部运动。从音频特征预测面部关键点位置，包括嘴巴、眼睛、眉毛等，以及头部姿态参数，再将预测的关键点映射为逼真的人脸图像帧。

基于自回归概率模型的方法

Live Speech Portraits 提出了一个自回归的概率模型，用于实时生成音频驱动的头部姿态和面部表情动画。从语音信号中提取声学特征，如 MFCC、音高、能量等。利用过去的头部姿态和当前的音频特征，预测当前时刻的头部姿态分布。从预测的概率分布中采样头部姿态参数，生成连续的头部运动序列，实现了实时的头部姿态生成，达到每秒 30 帧的速度。

基于扩散模型的方法

DiffTalk 将扩散模型引入到音频驱动的头部姿态生成中，利用其强大的生成能力，生成高质量的Talking head视频。在潜在空间中，从噪声初始状态逐步去噪，生成目标图像。扩散模型条件基于音频特征和参考图像，生成与音频匹配的头部姿态和表情。

这里简单提及了一些基础方法，更多方法可以通过表格和Github Repo取得最新的进展，基本上由Encoder-Decoder、Diffusion、Transformer等架构为主，基于显式建模动作和隐式动作表征生成，来驱动最终视频生成结果。尽管取得了显著的进展，头部姿态驱动仍然面临许多挑战，包括模型的泛化能力、实时性、情感表达和数据集匮乏等。未来的研究需要在模型架构、训练方法、多模态融合、数据集建设等方面持续创新，推动该领域的发展和应用。

Fine-Grained Style and Emotion-Driven Animation

细粒度风格和情感驱动视频旨在根据输入的音频信号，生成能够精确表达情感和风格的面部动画。这不仅涉及到唇形同步和头部姿态，还需要对情感状态和个性化风格进行精细的控制。根据音频信号中的情感信息，生成能够准确反映特定情感状态的面部动画，例如高兴、悲伤、愤怒、惊讶等。支持对说话风格的控制，包括语速、语调、个性化的面部表情等，使得生成的动画更加贴合特定人物的风格特征。

humanMotionVideoSurvey-12

为实现细粒度的情感和风格控制，研究者们提出了多种方法，主要可以归纳为以下几类：

情感提取与解耦

EVP [176] 提出了基于交叉重建的情感解耦技术，将音频中的情感信息与内容信息进行分离，分别编码。这种方法旨在解决情感与语义内容交织的问题，使模型能够单独控制情感表达。设计两个独立的编码器，一个用于提取音频中的情感特征，另一个用于提取语义内容特征。采用交叉重建的方法，让情感编码器解码出与原始内容不同但情感相同的音频，内容编码器则解码出与原始情感不同但内容相同的音频。这种方法有效地分离了情感和内容，提升了情感控制的精确度。但对于情感高度复杂或混合的音频，解耦可能不够彻底，并且需要大量标注的数据进行训练，获取情感标签存在难度。

风格控制

StyleTalk [177] 引入了风格控制模块，可以根据输入的音频和指定的风格参数，生成具有不同说话风格的面部动画。该方法强调了个性化的表达，使生成的动画更具人物特征。风格嵌入（Style Embedding）：为每个目标风格学习一个嵌入向量，作为模型的条件输入。风格控制网络：在生成模型中嵌入风格控制模块，通过调整风格嵌入，影响生成过程中的面部表情和动作。多任务学习：同时学习唇形同步、头部姿态和风格特征的生成。

此外，基于扩散模型的细粒度控制的效果也令人惊艳，EMO [57] 通过引入稳定控制机制，包括速度控制器和面部区域控制器，解决了音频与表情映射过程中的模糊性问题，实现了对面部表情的细粒度控制。包含速度控制器（调节口型变化的速度，使之与语速相匹配，避免口型过快或过慢）和面部区域控制器（对面部的不同区域（如眉毛、眼睛、嘴角等）进行独立控制，精细调整表情细节），通过两者合成逼真的驱动视频。除此之外，DreamTalk 也利用扩散模型，生成风格化的、具有细节控制的面部动画。该方法支持对情感和风格的同时控制，使生成的动画更加生动和个性化。结合音频、风格描述、情感标签等多种输入，指导生成过程。

其他方法StyleSync 提出了在风格化生成对抗网络（GAN）框架下，实现高保真度的说话人脸动画生成。通过对说话风格和内容的同步处理，提升了生成结果的质量。基于 StyleGAN 架构，学习从音频到面部动画的映射。但GAN 模型可能存在训练不稳定的问题。

Audio-Driven Holistic Human Driving

音频驱动的整体人体运动生成（Audio-Driven Holistic Human Driving）是指通过音频信号（如语音、音乐等）驱动数字人的全身动作生成，包括面部表情、头部姿态、上半身和手部动作，甚至是全身的舞蹈动作。该任务旨在从单一的音频输入生成逼真、自然且富有表现力的人体动作视频，实现数字人能够与音频内容同步的全身表演。

相较于仅生成面部表情或唇形同步的任务，音频驱动的整体人体运动生成需要处理更复杂的运动模式和更多的自由度，涉及到全身的协调和同步。这对模型的理解和生成能力提出了更高的要求。

humanMotionVideoSurvey-13

经典方法主要有VLOGGER、ANGIE等，VLOGGER 提出了一种基于 Transformer 的框架，从音频中预测 3D 面部表情和身体姿态参数，实现了对全身动作的同步生成。使用 Conformer（卷积Transformer）对音频信号进行编码，捕捉音频的时序和频率特征。从音频特征映射到 3DMM（3D Morphable Model）的人脸参数和 SMPL 模型的身体姿态参数，包括表情、头部姿态、身体姿态和手部动作。ANGIE 则提出了一种自监督学习框架，利用音频驱动共语手势的生成。模型将手势动作分解为常见的运动模式和细节的韵律动态，捕捉音频与手势之间的关联。将手势动作分解为基本的运动模式（如抬手、挥手）和与音频节奏相关的动态变化。此外，基于音乐驱动的全身舞蹈视频生成也逐渐引入视野，Dance Any Beat 则利用扩散模型，根据输入的音乐音频生成对应的舞蹈视频，实现了音乐驱动的全身动作生成。

挑战与未来Insight

现有的音频驱动发展趋势也逐步从嘴部发展到全身动作协调一致驱动，一项重要的影响因素是如何在语音中解耦有效信息，对于音唇同步对音频的同步要求性高，但对于头部和手部姿态又具有一定的随机概率性，因此一般情况下都采取不同的建模方式，以驱动合成视频。音频和运动信号的复杂性往往会导致产生的结果中的抖动、不相干或去同步等问题。例如，保持音频信号和视觉输出（例如，手和嘴唇的运动）之间的同步是至关重要的。此外解耦手势的语义性手势和节拍性手势也至关重要，在目前的文章中还未有深入探索。

另外，目前的数据集主要集中在英文数据集，推广不同语种不同人种的数据集有待深入挖掘。

音频驱动Multilingual Video Dubbing

多语言视频配音（Multilingual Video Dubbing）是人体动作视频生成领域中的一个具有挑战性和重要性的任务。其目标是将原始视频的语音内容从一种语言转换为另一种语言，同时调整人物的口型和面部表情，使其与新的音频同步，生成自然逼真的配音视频。随着全球化的发展，媒体内容的跨语言传播需求日益增长。多语言视频配音可以使得内容在不同语言之间无缝传播，扩大受众范围。然而，由于不同语言之间在发音、语速、句法结构等方面的差异，实现高质量的多语言配音具有相当的挑战性。

Yang 等人 [194] 是最早全面解决多语言视频配音任务的研究之一。他们提出的流程包括：语音转录与翻译（使用语音识别技术将原始音频转录为文本）、语音合成（利用文本到语音（TTS）模型，将翻译后的文本转换为目标语言的音频）、视频-音频对齐（考虑到不同语言的句长和语速不同，需要调整视频的时间轴，使新的音频与视频内容长度匹配）、口型同步生成（根据新的音频调整人物的嘴部动作，确保口型与目标语言的发音相对应，实现视觉上的同步）、视频合成与修复（将调整后的嘴部区域与原始视频融合，生成完整的视频帧，处理可能出现的边缘模糊、色差等问题，确保视觉质量）这几个步骤。

挑战与未来Insight

目前跨语种视频翻译任务刚刚起步，相关多语种数据集严重匮乏，此外，如何在目标语言中合成与原始说话者音色相似的语音，保留人物的个性特征也是一项重要议题。

不同语言表达相同含义的句子长度不同，如何在不影响视频内容的情况下调整节奏和时间。

口型同步的准确性：口型需要与目标语言的发音精准对应，否则会显得不自然。

视频细化调优阶段

当前的生成框架仍处于初级阶段，控制能力有限。是指在初步生成的视频基础上，针对性地改进和优化，以获得更高质量的结果。细化调优Refinement方法主要分为以下两类：

特定部位精细化旨在解决生成模型在某些敏感区域的局限性，如：

嘴部：口型的准确性对于逼真的说话人头像生成至关重要。错误的嘴部形状会导致口型与语音不同步，降低真实感。

眼睛和眼神：眼睛被称为“心灵的窗户”，微小的眼部细节对传达情感和认知状态有重要影响。眼神漂移或闪烁不自然会使生成的人物显得僵硬或失神。

牙齿：牙齿的细节常常在生成过程中被忽略或生成错误，但对于开口说话或微笑的场景，牙齿的准确生成非常重要。

手部：手部动作复杂且变化多，生成时容易出现扭曲或畸形。由于手部在表达中扮演着重要角色，其细节缺失会影响整体表现力。

一般情况下，可以通过以下方法弥补一些生成缺陷：

针对特定区域的损失函数：在训练过程中，引入针对特定部位的损失函数，强化模型对这些区域的关注。例如，为了提高手部的生成质量，可以在损失函数中增加对手部关键点或纹理的权重。

后处理：利用在大规模数据集上预训练的网络，对生成的视频进行后处理，增强特定部位的细节。例如，使用人脸修复网络改善面部细节，或使用手部修复网络增强手部的清晰度。例如MimicMotion [37]：该方法通过先进的姿态引导机制，引入了手部区域的增强策略。具体而言，模型在生成过程中对手部区域进行重点关注，利用高精度的手部姿态信息指导生成，显著提高了手部动作的精度，减少了失真。

消除人脸瑕疵：工具如 CodeFormer [196] 和 Feng 等人 [197] 的方法被应用于后处理阶段，以去除生成视频中的人脸瑕疵，如模糊、失真和伪影等。

整体精细化致力于提升生成视频的总体质量，包括：

超分辨率：通过超级分辨率技术，将低分辨率的视频放大到高分辨率，同时尽可能保留细节和清晰度。

帧率增强：增加视频的帧率，使运动更加平滑和自然。通过插帧技术，在现有帧之间生成过渡帧，改善视觉体验。

去噪：在生成过程中，模型可能引入噪点或杂波。应用去噪网络可以降低噪声水平，提高视频的清晰度。

这些技术共同作用，显著提升了生成视频的视觉质量，为观众带来更好的观看体验。

输出（Output）

虽然生成高质量的视频非常重要，但如果无法满足实时性要求，在许多实际应用中仍然会受到限制。输出阶段关注的是如何将生成模型应用于实际场景，特别是实现实时生成和部署：

计算成本高：高质量的视频生成模型（如基于扩散模型的）通常计算量巨大，训练和推理都需要大量的资源，难以满足实时性要求。
训练不稳定性：某些模型，特别是基于GAN的模型，训练过程可能不稳定，容易出现模式崩溃（mode collapse）或梯度消失。如 Guo 等人 [26] 和 Jiang 等人 [28] 的工作，展示了在Talking Head和Portrait Animation的一定实时性能。然而，这些方法在生成质量和训练稳定性上仍有不足。
视频质量与速度的权衡：提高生成速度往往会以视频质量的下降为代价，如何在两者之间取得平衡是一个关键问题。扩散模型因其在高质量视频生成方面的卓越表现而受到关注。然而，其高昂的计算成本使得实时应用面临挑战。

通过模型剪枝、量化、蒸馏等技术，降低模型的复杂度，提高推理速度。例如 Sauer 等人 [200] 和 Zhai 等人 [201] 的工作，利用知识蒸馏技术，将大型模型的知识迁移到轻量级模型中，显著提升了采样速度。也可以尝试利用基于流Flow的扩散模型，来实现实时视频编辑和生成。Kodaira 等人 [198] 和 Liang 等人 [199] 的工作探索了这方面的可能性，为实时人体动作视频生成提供了新的思路。

评估方法

目前数字人动作视频生成的评估方法大致上可以参照通用视频生成的评估方法，建议分类为两大类别：客观指标和主观评价；对于客观指标来说，通常可以分成四种类型，单帧图像的质量评估、视频质量评估、视频特性评估、基准测试。

humanMotionVideoSurvey-14

单帧图像的质量评估

单帧图像质量的评估主要针对视频中的单帧图像，评估其视觉质量和与参考图像的相似性。常用的指标包括：

（01）L1距离（L1 Distance）

计算生成图像与参考图像在像素级别的绝对差之和，反映像素误差的平均值。

优点：直观易懂，计算简单。

缺点：仅考虑像素的绝对差异，不能反映感知上的差异和结构信息。

（02）结构相似度指数（SSIM）：

比较两幅图像的结构信息，包括亮度、对比度和结构，由此得到一个介于0和1之间的值，越接近1表示两幅图像越相似。

优点：考虑了结构信息，能够更好地反映人类视觉感知。

缺点：在一些情况下可能对光照变化敏感。

（03）峰值信噪比（PSNR）：

通过均方误差（MSE）计算生成图像与参考图像之间的差异，PSNR值越高表示差异越小。

优点：计算简单，广泛应用于图像质量评估。

缺点：基于像素的误差，不能反映感知质量。

（04）感知相似度（LPIPS）：

使用预训练的网络（如VGG、AlexNet）提取图像的特征表示，计算特征空间中的距离，反映生成图像与参考图像在感知上的差异。

优点：考虑了高层次的语义和感知信息，能够更好地反映人类视觉感知。

缺点：依赖于预训练模型，可能受到模型本身的限制。

（05）Fréchet Inception Distance（FID）：

计算生成图像和真实图像的特征分布之间的距离，以Inception网络提取特征，计算分布的均值和协方差，通过Fréchet距离衡量差异。

优点：考虑了数据分布的统计特性，能够量化生成数据和真实数据的距离。

缺点：需要大量的数据进行统计，对小规模数据集不够稳定。

（06）CLIP相似度分数（CLIP-S）：

利用CLIP模型将图像和对应的文本描述映射到同一特征空间，计算二者的余弦相似度，反映图像与文本的匹配程度。

优点：能够评估生成图像与文本描述的匹配度，适用于文本驱动的生成任务。

缺点：对细节的捕捉可能不够精确，依赖于CLIP模型的性能。

（07）人脸相似度（Face Similarity）：

使用人脸识别模型（如ArcFace、FaceNet）提取人脸特征，计算生成图像与参考图像的人脸特征距离，评估身份保持程度。

优点：专门针对人脸，能够有效评估身份一致性。

缺点：仅适用于涉及人脸的任务，不能评估其他内容。

（08）NIQE：

一种无参考的图像质量评价方法，通过统计图像的自然场景统计特征，量化图像质量，分数越低表示质量越高。

优点：无须参考图像，能够评估未知图像的质量。

缺点：对某些类型的失真可能不够敏感。

总结：单帧图像质量指标主要关注生成图像的视觉质量，与参考图像的差异等。它们在评估某些任务（如图像生成、超分辨率）时非常有效，但在视频生成任务中，不能反映帧间的时序一致性和动态特征。

视频质量评估

视频质量评估关注生成视频的整体质量，包括空间和时间维度上的一致性。常用的指标有：

（09）FVD：

FVD是FID在视频领域的扩展，用于衡量生成视频和真实视频在特征分布上的差异。FVD通过预训练的视频特征提取网络（如I3D）提取视频特征，计算两组视频特征分布的距离。

优点：考虑了视频的时序信息，能够评估视频的整体质量和动态一致性。

缺点：计算复杂度较高，受特征提取网络的影响。

（10）FID-VID：

类似于FID，但是应用于视频数据。它将视频视为一系列帧的集合，通过计算生成视频帧和真实视频帧的特征分布差异，评估视频质量。

优点：计算相对简单，能够评估视频帧的总体质量。

缺点：没有充分考虑视频的时序信息，可能无法反映运动一致性。

（11）平均内容距离（ACD）：

ACD用于衡量生成视频的内容一致性。通过计算视频帧之间的特征差异（如LPIPS），评估帧间的一致性和稳定性。

优点：能够量化视频的抖动和闪烁等问题。

缺点：仅考虑帧间的差异，无法评估整体的视觉质量。

（12）FGD：

FGD是针对手势视频生成的评估指标，通过计算生成手势视频和真实手势视频的特征分布差异，评估生成质量。

优点：针对手势生成任务，具有专门的适用性。

缺点：通用性不强，主要适用于手势生成领域。

总结：视频质量评估指标考虑了时间维度，能够更全面地评估生成视频的质量。然而，这些指标通常计算复杂，依赖于预训练的特征提取网络，对不同的任务和数据集可能需要调整。

视频特性评估

除了整体质量外，评估生成视频的特性，如多样性、动作准确性、同步性等，也是非常重要的。常用的指标包括：

（13）帧间一致性CLIP分数（Frame Consistency CLIP Score）：

计算视频帧之间的CLIP特征相似度，评估帧间的一致性和稳定性。

优点：利用预训练模型，能够量化帧间的变化程度。

缺点：对微小的变化可能不够敏感，依赖于CLIP模型的表现。

（14）生成质量多样性（Diversity）：

评估生成视频的多样性，通过计算生成视频之间的特征差异，反映模型生成不同视频的能力。

优点：能够衡量模型的创造性和多样性。

缺点：需要大量的生成数据进行比较，且需要注意多样性和质量的平衡。

（15）关键点精度（PCK）：

用于评估姿态估计的准确性，计算生成视频中关键点与真实关键点之间的距离，当距离小于一定阈值时，认为关键点预测正确。

优点：直观评估动作的准确性，适用于姿态相关的任务。

缺点：需要精确的关键点标注，评估受标注质量影响。

（16）IS：

计算生成数据的预测类别分布和预测置信度，用于评估生成样本的质量和多样性。

优点：广泛应用于图像生成任务。

缺点：在视频生成中，可能无法充分反映时序特征。

（17）节拍一致性评分（BCS）：

用于音乐驱动的舞蹈视频生成，评估生成的视频动作节拍与音乐节拍的同步程度。

优点：专门针对音乐与动作同步的任务，评估模型的节拍捕捉能力。

缺点：通用性较差，主要适用于特定任务。

总结：视频特性评估指标关注特定的属性，如动作的准确性、视频的多样性等。这些指标能够为模型的改进提供具体的指导，但通常需要特定的任务和数据支持。

基准测试

为了更系统和全面地评估生成模型，一些研究者提出了视频基准测试套件，如：

（18）DOVER（Disentangled Objective Video qualEty Rater）：

DOVER是一个受主观评价启发的视频质量评估器，具有两个分支，分别关注视频的美学质量和技术质量，包括亮度、对比度、抖动、失真等因素。

优点：能够从多个维度评估视频质量，综合反映主观和客观因素。

缺点：实现复杂度较高，需要对各个分支进行精心设计。

（19）VBench：

VBench是一个用于视频生成的多维度评估基准，涵盖16个不同的评估维度，如主体身份一致性、运动平滑度、时序闪烁、空间关系等。每个维度都有定制的评估方法和指标。

优点：提供了全面的评估框架，能够细致分析模型的优缺点。

缺点：评估过程复杂，可能需要大量的计算资源。

（20）EvalCrafter：

EvalCrafter是一个针对视频生成模型的评估框架，提供了规范的评估流程和工具，评估生成视频的视觉质量、内容质量、动作质量和文本-视频匹配度。

优点：规范了评估流程，提供了统一的评估标准。

缺点：可能需要针对不同的任务进行定制和调整。

数据集收集

由于数据的获取和隐私问题，公开可用的大规模、高质量人体动作视频数据集较为稀缺。本文收集了64个公开的数据集，涵盖不同的任务和应用场景，为研究者提供了宝贵的资源。这些数据包括人脸、手势、全身演讲和多人对话。

humanMotionVideoSurvey-15

现有挑战和未来发展建议

关于数据

由于隐私问题、数据质量差和高昂的采集成本，高质量、高多样性的人体动作视频数据集相对匮乏。这阻碍了模型的鲁棒性和泛化能力。现有数据集往往缺乏对不同年龄、性别、种族、文化背景的人物动作的全面覆盖，限制了模型在真实世界应用中的适应性。很多机构和任务相互独立，很少贡献开源社区，因此急需收集、标注并公开高质量、多样化的人体动作视频数据集，涵盖不同年龄、性别、种族、文化背景、语言、演讲与舞蹈，支持模型的训练和评估。

关于人体结构视频合成完整性和流畅性

现有方法并没有很强的物理先验知识，生成的人物在面部、手部等关键细节区域存在逼真度不足的问题，影响了整体视觉效果和真实感。难以保持生成视频的空间和时间一致性，容易出现抖动、模糊、细节丢失等问题。一些细粒度的结构例如：嘴巴、鼻子、纹路、眼睛、甚至是眼睑的保持度也有待提升。

关于训练成本和推理速度

目前现有方法往往需要大量的数据来进行长期训练，从而导致成本很高，并且基于Unet-based Diffusion Model的方法通常需要80G的大卡，试错成本高。如何降低训练成本并提高推理速度是商业化部署的重要约束因素，在确保生成质量的同时，提高模型的生成速度和效率具有挑战性。

关于人体动作规划的局限性

当前的动作规划主要依赖于现有的数据分布和特征映射，难以深入理解人类动作的深层次语义和情感。模型对新环境、新任务的适应能力有限，难以生成上下文相关、符合意图的动作。大多数现有数字人视频生成工作没有充分利用LLMs作为动作规划器，潜力未被完全挖掘，但3D骨架任务中已充分使用，例如如FineMoGen、PRO-Motion、AvatarGPT和MotionGPT等能够从文本生成整体人体动作3D骨架。如何评估LLMs在动作规划中的有效性也是一个关键挑战，即大模型是否真正理解了人体动作并能够感知当前环境下当前驱动源下做什么动作才是正确的。

收录的论文只到24年8月份, 其实有点过时了, 但是可以对整个human motion video generation有一个全面的印象, 只写我关注的部分.

参考图, 控制条件注入网络的方式, 文中总结了6种, 比较熟悉的是animate anyone和MimicMotion的两种区别, 各种方式的优缺点总结的很好.
空间注意力, 交叉注意力, 时间注意力, 各自的优势以及各种魔改的注意力机制总结.

它总结的"音频驱动全身视频类"就三篇论文, 其中两篇本质上还是talking head, 而不是dance, 另一篇以前读过.

数据集部分, 查看了所有提到的包含音乐的数据集, 质量都不高, 一个洞察是数据来源都是yt(感觉很难找到比aist++更好的公共数据集).

指标这块先跳过了, 调研阶段不需要太关注, 真做定量分析肯定还是参考同细分领域论文.

Human Motion Video Generation: A Survey

On this page