GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing

向作者提问

NEW

简介

尽管现有的图像生成和编辑方法已经取得了成功，但当前的模型仍然在复杂问题上面临困难，包括复杂的文本提示，而缺乏验证和自我纠正机制使得生成的图像不可靠。同时，单个模型往往专门针对特定任务并具有相应的能力，这使得它无法满足所有用户的需求。我们提出了GenArtist，一个统一的图像生成和编辑系统，由多模态大语言模型（MLLM）代理协调。我们将现有模型的全面范围集成到工具库中，并利用代理进行工具选择和执行。对于复杂问题，MLLM代理将其分解为更简单的子问题，并构建树形结构以系统地规划生成、编辑和自我纠正的过程，并进行逐步验证。通过自动生成缺失的位置相关输入并融合位置信息，可以有效地使用适当的工具来解决每个子问题。实验表明，GenArtist可以执行各种生成和编辑任务，实现了最先进的性能，并超越了现有的模型，如SDXL和DALL-E 3，如图1所示。项目页面为https://zhenyuw16.github.io/GenArtist_page。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

GenArtist试图解决的问题是当前图像生成和编辑模型在处理复杂问题时存在的困难，包括复杂的文本提示和缺乏验证和自我纠正机制，以及单一模型难以满足所有用户需求的问题。该论文提出了一个统一的图像生成和编辑系统，由一个多模态大语言模型（MLLM）代理协调。
关键思路

该论文的关键思路是将现有的模型整合到工具库中，并利用代理进行工具选择和执行。MLLM代理将复杂问题分解为简单的子问题，并构建树形结构来系统地规划生成、编辑和自我纠正的过程，通过逐步验证来提高可靠性。通过自动生成缺失的位置相关输入和整合位置信息，可以有效地应用适当的工具来解决每个子问题。
其它亮点

该论文的亮点包括实现了一个统一的图像生成和编辑系统，可以处理各种任务，并取得了最先进的性能。此外，该论文开源了代码，并提供了项目页面。实验使用了多个数据集，并与现有模型进行了比较。该论文提供了一个新的思路，可以进一步深入研究。
相关研究

最近在这个领域中，还有一些相关的研究，如SDXL和DALL-E 3。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问