DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

简介

文本到图像（T2I）生成模型吸引了大量关注，并在学术研究内外得到广泛应用。例如，T2I创新平台Civitai社区目前拥有令人印象深刻的74,492个不同模型。然而，这种多样性在选择最合适的模型和参数方面提出了巨大的挑战，这个过程通常需要进行多次试验。受大型语言模型（LLMs）工具使用研究的启发，我们介绍了DiffAgent，这是一个LLM代理，通过API调用在几秒钟内筛选出准确的选择。DiffAgent利用一种新颖的两阶段训练框架SFTA，使其能够根据人类偏好准确地将T2I API响应与用户输入对齐。为了训练和评估DiffAgent的能力，我们提出了DABench，这是一个包含广泛的T2I API范围的全面数据集，来自社区。我们的评估表明，DiffAgent不仅在识别适当的T2I API方面表现出色，而且强调了SFTA训练框架的有效性。代码可在https://github.com/OpenGVLab/DiffAgent上获得。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决文本到图像（T2I）生成模型的选择问题，即如何在众多模型中选择最合适的模型和参数。
关键思路

论文提出了一个基于大型语言模型（LLM）的代理工具DiffAgent，通过API调用在几秒钟内筛选出最准确的选择。DiffAgent采用了一种新颖的两阶段训练框架SFTA，使其能够根据人类偏好精确地对齐T2I API响应和用户输入。
其它亮点

论文使用了一个全面的数据集DABench来训练和评估DiffAgent的能力，并证明DiffAgent不仅在识别适当的T2I API方面表现出色，而且强调了SFTA训练框架的有效性。此外，论文还提供了开源代码。
相关研究

在最近的相关研究中，也有许多关于T2I生成模型选择的研究，如《Generative Models for Effective ML-driven Drug Discovery》、《Image-to-Image Translation with Conditional Adversarial Networks》等。

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

提问交流

提问交流