PaperAgent
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
介绍了一种名为扩散模型自博弈微调的创新技术,其中扩散模型与其早期版本展开竞争,从而促进迭代式自我改进过程。
Loading...
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
现有模型本质是静态的文本到像素解码器, 新兴的统一理解-生成模型在意图理解上有所改善, 涉及复杂推理的任务仍然存在困难. 引入 Mind-Brush agent框架, 将生成过程转变为一个动态的, 知识驱动的工作流程
Audio-Visual Intelligence in Large Foundation Models: A Comprehensive Survey
使听觉和视觉结合起来, 使机器能够在多模态的真实世界中感知, 生成, 交互. 全面回顾AVI, 建立统一分类体系, 数据集, 评估, 最后是开放问题和挑战.
