- 简介使用人类反馈数据训练的奖励函数来微调文本到图像模型,已被证明可以有效地使模型行为与人类意图相一致。然而,过度优化这些作为代理目标的奖励模型,可能会损害微调模型的性能,这种现象被称为奖励过度优化。为了深入研究这个问题,我们引入了文本-图像对齐评估(TIA2)基准测试,其中包括各种文本提示、图像和人类注释。我们对几种最先进的奖励模型在这个基准测试上进行评估,发现它们经常与人类评估不一致。我们通过实验证明,当使用不良对齐的奖励模型作为微调目标时,过度优化的现象尤为突出。为了解决这个问题,我们提出了TextNorm,一种简单的方法,它基于在一组语义对比文本提示中估计的奖励模型置信度来增强对齐。我们证明,将置信度校准的奖励模型纳入微调中,有效地减少了过度优化,使得文本-图像对齐的人类评估胜利次数比基线奖励模型多了一倍。
- 图表
- 解决问题本论文旨在解决fine-tuning文本到图像模型时,过度优化奖励模型的问题,即奖励过度优化现象,提出了一种简单的方法来增强奖励模型的对齐性。
- 关键思路提出了一种名为TextNorm的简单方法,该方法基于在一组语义对比文本提示中估计的奖励模型置信度的度量来增强对齐性。
- 其它亮点引入了Text-Image Alignment Assessment(TIA2)基准,评估了几种最先进的奖励模型在这个基准上的表现,提出了一个简单的方法TextNorm来解决奖励过度优化问题,实验结果表明,使用TextNorm方法fine-tuning可以有效地减少过度优化,比基线奖励模型在文本-图像对齐的人类评估中获得了两倍的胜利。
- 最近的相关研究包括:Learning to Learn from Human Preferences(ICML 2017),Learning from Human Preferences with Bayesian Neural Networks(NeurIPS 2017),Preference-based Reinforcement Learning: A Comprehensive Survey(arXiv 2019)等。
沙发等你来抢
去评论
评论
沙发等你来抢