Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation

向作者提问

NEW

简介

最近的研究表明，利用人类偏好数据集来改进文本到图像生成模型具有非凡的潜力，可以增强生成图像与文本提示之间的对齐。尽管取得了这些进展，但目前的人类偏好数据集要么难以构建，要么在偏好维度上缺乏多样性，导致在开源文本到图像生成模型的指导调整方面应用受限，阻碍了进一步的探索。为了解决这些挑战并通过指导调整促进生成模型的对齐，我们利用多模态大语言模型创建了VisionPrefer，这是一个高质量和细粒度的偏好数据集，捕捉了多个偏好方面。我们汇总了来自AI注释员的反馈，涵盖了四个方面：遵循提示，美感，保真度和无害性，以构建VisionPrefer。为了验证VisionPrefer的有效性，我们在VisionPrefer上训练了一个奖励模型VP-Score，以指导文本到图像生成模型的训练，VP-Score的偏好预测准确度与人类注释员相当。此外，我们使用两种强化学习方法来监督微调生成模型，以评估VisionPrefer的性能，广泛的实验结果表明，VisionPrefer显著改善了组合图像生成中的文本图像对齐问题，涵盖了各种方面，如美感，并且比以前的人类偏好度量更具普适性，适用于各种图像分布。此外，VisionPrefer表明，将AI生成的合成数据作为监督信号集成是实现视觉生成模型与人类偏好对齐的有前途的途径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决利用人类偏好数据集来改进文本到图像生成模型的问题，提高生成图像与文本提示之间的对齐度。同时，本文还试图解决当前人类偏好数据集构建成本高昂或偏好维度缺乏多样性的问题。
关键思路

本文提出了一种利用多模态大型语言模型创建高质量、细粒度偏好数据集的方法，名为VisionPrefer。该数据集涵盖了多个偏好方面，并通过聚合来自AI注释者的反馈来构建。通过训练VP-Score奖励模型来指导文本到图像生成模型的训练，该模型的偏好预测准确性与人类注释者相当。此外，使用两种强化学习方法来监督微调生成模型，证明VisionPrefer显著改善了组合图像生成中的文本-图像对齐度，具有更好的泛化性能。
其它亮点

本文的亮点包括使用多模态大型语言模型创建高质量、细粒度偏好数据集；使用VP-Score奖励模型来指导文本到图像生成模型的训练；使用两种强化学习方法来监督微调生成模型；证明VisionPrefer显著改善了组合图像生成中的文本-图像对齐度，并具有更好的泛化性能。
相关研究

在这个领域中，最近的相关研究包括：1）利用GAN生成图像的方法；2）利用强化学习方法来微调生成模型；3）利用人类偏好数据集来改进生成模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问