- 简介将文本到图像(T2I)扩散模型与偏好优化对齐对于人工标注的数据集非常有价值,但手动数据收集的高昂成本限制了其可扩展性。使用奖励模型提供了一种替代方案,然而,当前的偏好优化方法在利用丰富信息方面存在不足,因为它们仅考虑成对的偏好分布。此外,这些方法在多偏好场景中缺乏泛化能力,并且难以处理奖励之间的一致性问题。为了解决这些问题,我们提出了校准偏好优化(Calibrated Preference Optimization,简称CaPO),这是一种新的方法,通过结合多个奖励模型的一般偏好来对齐T2I扩散模型,而无需人工标注数据。我们的方法核心是一种奖励校准方法,通过计算预训练模型生成样本的预期胜率来近似一般偏好。此外,我们提出了一种基于前沿的配对选择方法,通过从帕累托前沿选择配对来有效管理多偏好分布。最后,我们使用回归损失微调扩散模型,以匹配选定配对之间的校准奖励差异。实验结果表明,CaPO在单奖励和多奖励设置下均优于先前的方法(如直接偏好优化Direct Preference Optimization, DPO),这已在包括GenEval和T2I-Compbench在内的T2I基准测试中得到验证。
- 图表
- 解决问题该论文旨在解决文本到图像(T2I)扩散模型与偏好优化对齐的问题,特别是如何在无需人工标注数据的情况下,利用多个奖励模型的一般偏好信息来改进模型。现有的方法受限于高昂的手动数据收集成本和仅考虑成对偏好的局限性,这限制了其在多偏好场景中的泛化能力和处理奖励之间不一致的能力。
- 关键思路论文提出了一种名为Calibrated Preference Optimization (CaPO)的新方法,通过引入奖励校准技术来估计一般偏好,并使用基于前沿的选择方法来管理多偏好分布。具体来说,它计算预训练模型生成样本的预期胜率以逼近一般偏好,并从帕累托前沿选择样本对进行优化。最后,通过回归损失微调扩散模型以匹配选定对之间的校准奖励差异。这种方法不仅避免了对人工标注数据的依赖,还提高了多偏好场景下的性能。
- 其它亮点1. CaPO方法在单奖励和多奖励设置下均优于先前的方法(如DPO),特别是在T2I基准测试(如GenEval和T2I-Compbench)中表现突出。 2. 论文提出了新颖的奖励校准和前沿选择机制,有效解决了现有方法在处理多偏好分布时遇到的问题。 3. 实验设计涵盖了多种评估指标和基准测试,确保了结果的可靠性和广泛适用性。 4. 尽管未提及代码是否开源,但论文详细描述了实验过程和技术细节,为未来研究提供了坚实基础。
- 近期相关研究包括: 1. Direct Preference Optimization (DPO),它专注于通过直接优化偏好来改进生成模型。 2. Reward Modeling in Text-to-Image Generation,探讨了如何在T2I生成任务中应用奖励模型。 3. Multi-Preference Alignment for Generative Models,研究了生成模型在多偏好场景下的对齐问题。 4. Pareto Frontier Selection in Machine Learning,介绍了机器学习中帕累托前沿选择的应用。
沙发等你来抢
去评论
评论
沙发等你来抢