KTO: Model Alignment as Prospect Theoretic Optimization

2024年02月02日
  • 简介
    Kahneman和Tversky的$\textit{前景理论}$告诉我们,人类以一种有偏见但明确定义的方式来感知随机变量;例如,人类以损失规避的方式出名。我们展示了将LLMs与人类反馈对齐的目标隐含地包含了许多这些偏见 - 这些目标(例如DPO)的成功部分归因于它们是$\textit{人类感知损失函数}$(HALOs)。然而,这些方法所归因于人类的效用函数仍然与前景理论文献中的不同。使用Kahneman-Tversky模型的人类效用,我们提出了一种HALO,直接最大化代际效用,而不是像当前方法那样最大化偏好的对数似然。我们将这种方法称为Kahneman-Tversky优化(KTO),在1B到30B的规模上,它与基于偏好的方法的表现相匹配或超过。至关重要的是,KTO不需要偏好 - 只需要二进制信号,指示给定输入的输出是可取还是不可取。这使得它在现实世界中更容易使用,因为偏好数据很少且昂贵。
  • 作者讲解·1
  • 图表
  • 解决问题
    提出一种新的人类感知优化方法Kahneman-Tversky Optimization (KTO),以解决在自然语言处理中生成模型与人类反馈之间的不匹配问题。
  • 关键思路
    KTO通过直接最大化生成结果的效用函数,而非最大化偏好的对数似然,来实现生成模型与人类反馈的匹配。
  • 其它亮点
    KTO是一种人类感知优化方法,不需要偏好数据,只需要二进制信号来指示生成结果是否符合期望。实验结果表明,KTO在1B到30B的规模下,与基于偏好的方法相比,表现相当甚至更好。
  • 相关研究
    相关研究包括基于偏好的优化方法,如Deep Reinforcement Learning from Human Preferences和Differentiable Preference Learning for Neural Machine Translation,以及人类感知建模方法,如Prospect Theory和Kahneman-Tversky模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问