PaperAgent

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

介绍了一种名为扩散模型自博弈微调的创新技术，其中扩散模型与其早期版本展开竞争，从而促进迭代式自我改进过程。

SPIN-Diffusion-intro

快速阅读

刚开始读的时候觉得自进化的过程很像GAN，一个裁判一个对手，但是读到后面感觉更像ODE，生成模型自成一个分布，GT自成一个分布，整个自我对弈的过程，动态地来看，就是模型在微调自己的 ODE 积分轨迹。它不仅受到真实分布的吸引，还受到旧有模型分布的排斥。很复杂的数学推导就不看了。

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

现有模型本质是静态的文本到像素解码器, 新兴的统一理解-生成模型在意图理解上有所改善, 涉及复杂推理的任务仍然存在困难. 引入 Mind-Brush agent框架, 将生成过程转变为一个动态的, 知识驱动的工作流程

Audio-Visual Intelligence in Large Foundation Models: A Comprehensive Survey

使听觉和视觉结合起来, 使机器能够在多模态的真实世界中感知, 生成, 交互. 全面回顾AVI, 建立统一分类体系, 数据集, 评估, 最后是开放问题和挑战.