ELF

介绍

diffusion models和flow-based model成为生成连续数据的重要范式, 像图像, 视频和其它连续领域数据, 推动了运用到语言的兴趣(diffusion language models, DLMs).

DLMs以离散与连续两种方式表示, 连续DLMs将离散标记映射到连续表示, 并在连续空间中去噪, 离散DLMs在标记空间中操作, 在离散随机变量上构建概率扩散模型, 目前主要工作集中在离散领域, 尚不清楚连续DLMs的表现差距是由于语言建模本质上是离散的性质还是因为算法设计尚未被充分探索.

ELF是一种连续的DLMs方法, 基于Flow Matching. 两个特点: 1) 在连续空间中操作, 只在最后时间步考虑离散化; 2) 连续时间建模, 通过时间导数定义速度场, 让ELF能够受益于Flow Matching的进展.

ELF通过将编码器模型应用于输入的离散标记来构建连续的嵌入空间, 编码器可以是预训练, 联合训练或者随机权重冻结, 不需要解码器. 这种设计基于这样的观察: 流匹配中的最终时间步可以自然地重新用于将连续嵌入映射回离散标记, 从而消除了对显式解码器的需求.

ELF基于先前的连续LDMs, 但是几乎所有步骤在连续嵌入空间中进行去噪, 为Flow Matching提供了最大的灵活性.

方法

从离散到连续嵌入. 将输入的句子分解为离散 Token 序列, 然后将其映射到连续的嵌入空间. 嵌入方法灵活, 默认使用T5编码器获得双向上下文嵌入.
连续嵌入上的Flow Matching. 与标准流匹配预测速度不同, ELF直接预测干净的嵌入, 原因: 1) 使流匹配在 768 维等高维表示上依然有效, 2) 预测干净嵌入的目标与最后一步预测离散 Token 的目标在逻辑上是一致的, 便于去噪任务与解码任务共享网络权重. 训练损失: 通过最小化预测速度与目标速度之间的均方误差来训练模型.
回归离散 Token. 仅在生成过程的最后一步( $t=1$ ), 将预测出的干净嵌入转换回离散 Token, 不需要单独的解码器, 因为它将流匹配的最后一步视为自然的解码过程. 有数据增强, 引入bad input, 通过交叉熵随时来监督Token还原过程.

这一节就不看了, 感觉是因为method图, 因此用这种方式解释技术细节.

主要讲了如何控制 ELF 模型的生成内容, 并在生成质量与多样性之间取得平衡. 因为作者让文本嵌入变得连续, 可以大量借用图片和视频的工作.

因为对这个领域了解就行了, 不需要专精就不看了, 没写训练成本.

感受

我觉得motion和text有共通点接近, 想着能不能借鉴一下思路. 暂时没想到...