DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

2024年03月31日
  • 简介
    文本到图像(T2I)生成模型吸引了大量关注,并在学术研究内外得到广泛应用。例如,T2I创新平台Civitai社区目前拥有令人印象深刻的74,492个不同模型。然而,这种多样性在选择最合适的模型和参数方面提出了巨大的挑战,这个过程通常需要进行多次试验。受大型语言模型(LLMs)工具使用研究的启发,我们介绍了DiffAgent,这是一个LLM代理,通过API调用在几秒钟内筛选出准确的选择。DiffAgent利用一种新颖的两阶段训练框架SFTA,使其能够根据人类偏好准确地将T2I API响应与用户输入对齐。为了训练和评估DiffAgent的能力,我们提出了DABench,这是一个包含广泛的T2I API范围的全面数据集,来自社区。我们的评估表明,DiffAgent不仅在识别适当的T2I API方面表现出色,而且强调了SFTA训练框架的有效性。代码可在https://github.com/OpenGVLab/DiffAgent上获得。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在解决文本到图像(T2I)生成模型的选择问题,即如何在众多模型中选择最合适的模型和参数。
  • 关键思路
    论文提出了一个基于大型语言模型(LLM)的代理工具DiffAgent,通过API调用在几秒钟内筛选出最准确的选择。DiffAgent采用了一种新颖的两阶段训练框架SFTA,使其能够根据人类偏好精确地对齐T2I API响应和用户输入。
  • 其它亮点
    论文使用了一个全面的数据集DABench来训练和评估DiffAgent的能力,并证明DiffAgent不仅在识别适当的T2I API方面表现出色,而且强调了SFTA训练框架的有效性。此外,论文还提供了开源代码。
  • 相关研究
    在最近的相关研究中,也有许多关于T2I生成模型选择的研究,如《Generative Models for Effective ML-driven Drug Discovery》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问