tmp
tmp
tmp

我们从图片的角度看待animate anyone的思路, 我的输入是一种pose, 输出是和输入相同姿态的"人", 这人物IP是怎样的, 两个途径, CLIP和ReferenceNet, Spatial注意力, 交叉注意力交流IP和motion信息.

端到端的音乐到视频生成, 3D dance dataset的数据集, 几年了还在用AIST++, 于是作者转战2D单眼视频了.之前说过, codebook是Bailando的工作, 生成视频是animate anyone的工作.
上上周基本就认知到这里了, 当然也指出了一些不痛不痒的问题, 脸部提取粗糙导致模型生成的脸崩掉了, 没有考虑不同人物尺寸比例不同(再读论文发现它是考虑了)等等, 主要还是沉浸在对X-dancer的赞美和嫉妒, 具体要怎么改进, 是没有想法的.
后面又关注了两篇文章.

这篇是video to audio的论文, 就是为视频配音, 给定视频模型输出音频. conditional flow matching的方法, 主要创新点有两个.
关注右侧joint attention部分, 三者拼接然后自注意力, 分开, 和animate anyone中的Spatial Attention神似, 而这里就是animate anyone用来控制姿态的技巧.
这篇论文给了我一个全新的角度看待Spatial Attention, 这上面是可以做文章的.
插曲
首先想到的是把pose和ReferenceNet的位置替换, 但是有一个很致命的问题"diffusion在时间步前期关注motion, 后期关注细节", 估计效果不会好.
接着很容易想到的是video, music, motion三者一起训练, 但是ReferenceNet只在timestamp=0采样一次, 而MMAudio的方法根据时间步多次采样, 这样很牺牲性能, 而MMAudio的方法生成质量真的比ReferenceNet更好吗, 存疑.
虽然有些疑问, 先看下一篇论文.

这篇论文没有完全弄懂, 但是有一个结论觉得很合理, "diffusion前期关注motion, 后期关注细节"