方法

在视频生成领域做tts

介绍了tts in video generation 特别的难点, 保持空间和时间的连续性, 同时diffusion去噪过程的高迭代性.

对一些概念进行阐述, 视频生成器, 测试验证器, 启发式搜索算法, 看到后面的图很好理解.

这是他们的baseline, 文章中将它比作由N个退化数组成的森林, 搜索任务就变成了选择其中最好的T长度路径.

这个方法是针对自回归模型, 不适用那种降噪整个视频序列的diffusion. 文字很难理解, 一定要结合下面的图.

论文中解释的不是很清楚, 自回归模型是逐帧生成视频的, 作者的思路是可以把它看成一棵树, 一直在向外延展.

图片级对齐. 关注bad video clip, 在降噪过程中, 一旦可以看出大概的轮廓, 用验证器对图片进行评估, 排除低潜力的生成, 将计算资源分配给更有潜力的去噪过程.
层次化提示. 视频生成的策略和输入都没有变化, 改变在验证器的promot, 1)在首帧, 验证器的promot是input text中的核心语义, 2)中间帧只说了用动态的prompt, prompt怎么来的没说, 3)在结尾帧promot为连续性和motion.
分支和裁剪. 关注左边的两个bad video clip, 叉掉之后由邻近的video clip多一个分支补齐, 此为分支; 关注中间的三个bad video clip, 最终路径只剩下4个, 此为裁剪.

下面就每什么要关注的, 在不同的model上实验, 用两种搜索方法. 这篇的论述是真难理解, 实践意义也不大.