Aligning Diffusion Models by Optimizing Human Utility

简介

我们提出了Diffusion-KTO，这是一种新颖的方法，通过将对齐目标表述为期望人类效用的最大化，来对齐文本到图像扩散模型。由于这个目标独立应用于每个生成过程，Diffusion-KTO不需要收集昂贵的成对偏好数据，也不需要训练复杂的奖励模型。相反，我们的目标需要简单的每个图像的二进制反馈信号，例如喜欢或不喜欢，这些信号是充分可用的。经过Diffusion-KTO的微调后，文本到图像扩散模型在人类判断和自动评估指标（如PickScore和ImageReward）方面表现出优越的性能，比现有技术（包括监督微调和Diffusion-DPO）都要好。总的来说，Diffusion-KTO释放了利用可获得的每个图像的二进制信号的潜力，并扩大了将文本到图像扩散模型与人类偏好对齐的适用范围。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过将对齐目标制定为最大化预期人类效用来解决文本到图像扩散模型的对齐问题。
关键思路

该论文的关键思路是使用简单的每图像二进制反馈信号来代替昂贵的成对偏好数据，从而实现文本到图像扩散模型的对齐。
其它亮点

Diffusion-KTO使用了简单的二进制反馈信号来对齐文本到图像扩散模型，避免了使用昂贵的成对偏好数据或训练复杂的奖励模型。实验结果表明，Diffusion-KTO优于现有技术，包括监督微调和Diffusion-DPO，表现出更好的人类判断和自动评估指标。
相关研究

最近的相关研究包括《DALL-E: Creating Images from Text》、《Generative Pretraining Transformer 3》等。

Aligning Diffusion Models by Optimizing Human Utility

提问交流

提问交流