KTO: Model Alignment as Prospect Theoretic Optimization

简介

Kahneman和Tversky的$\textit{前景理论}$告诉我们，人类以一种有偏见但明确定义的方式来感知随机变量；例如，人类以损失规避的方式出名。我们展示了将LLMs与人类反馈对齐的目标隐含地包含了许多这些偏见 - 这些目标（例如DPO）的成功部分归因于它们是$\textit{人类感知损失函数}$（HALOs）。然而，这些方法所归因于人类的效用函数仍然与前景理论文献中的不同。使用Kahneman-Tversky模型的人类效用，我们提出了一种HALO，直接最大化代际效用，而不是像当前方法那样最大化偏好的对数似然。我们将这种方法称为Kahneman-Tversky优化（KTO），在1B到30B的规模上，它与基于偏好的方法的表现相匹配或超过。至关重要的是，KTO不需要偏好 - 只需要二进制信号，指示给定输入的输出是可取还是不可取。这使得它在现实世界中更容易使用，因为偏好数据很少且昂贵。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

提出一种新的人类感知优化方法Kahneman-Tversky Optimization (KTO)，以解决在自然语言处理中生成模型与人类反馈之间的不匹配问题。
关键思路

KTO通过直接最大化生成结果的效用函数，而非最大化偏好的对数似然，来实现生成模型与人类反馈的匹配。
其它亮点

KTO是一种人类感知优化方法，不需要偏好数据，只需要二进制信号来指示生成结果是否符合期望。实验结果表明，KTO在1B到30B的规模下，与基于偏好的方法相比，表现相当甚至更好。
相关研究

相关研究包括基于偏好的优化方法，如Deep Reinforcement Learning from Human Preferences和Differentiable Preference Learning for Neural Machine Translation，以及人类感知建模方法，如Prospect Theory和Kahneman-Tversky模型。

KTO: Model Alignment as Prospect Theoretic Optimization

提问交流

提问交流