IA-T2I: Internet-Augmented Text-to-Image Generation
T2I任务, 当文本提示中隐含的知识不确定的情况下, 他们表现不佳. 通过搜索的方法解决.
Gen-Searcher: Reinforcing Agentic Search for Image Generation
落地点是T2I受到冻结内部知识的限制, 在需要最新信息的实际场景中常常失败, 提出了一个搜索增强的agent, 还有GRPO.
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
现有模型本质是静态的文本到像素解码器, 新兴的统一理解-生成模型在意图理解上有所改善, 涉及复杂推理的任务仍然存在困难. 引入 Mind-Brush agent框架, 将生成过程转变为一个动态的, 知识驱动的工作流程
