Discovering Preference Optimization Algorithms with and for Large Language Models

简介

离线偏好优化是增强和控制大型语言模型（LLM）输出质量的关键方法。通常，偏好优化是通过使用手工制作的凸损失函数作为离线监督学习任务来处理的。虽然这些方法基于理论洞察力，但它们本质上受到人类创造力的限制，因此可能会导致可能的损失函数搜索空间未被充分探索。我们通过执行LLM驱动的目标发现来解决这个问题，以自动发现新的最先进的偏好优化算法，而无需（专家）人为干预。具体而言，我们迭代地提示LLM根据先前评估的性能指标提出和实施新的偏好优化损失函数。这个过程导致了之前未知的和有效的偏好优化算法的发现。其中表现最佳的我们称之为Discovered Preference Optimization（DiscoPOP），这是一种新颖的算法，它自适应地混合了逻辑和指数损失。实验证明了DiscoPOP的最先进性能以及其成功地转移到保留任务。
图表
解决问题

本文旨在通过LMM驱动的目标发现，自动发现新的最先进的偏好优化算法，以增强和控制大型语言模型（LLM）的输出质量。
关键思路

本文提出了一种新的方法，通过迭代地提示LMM提出和实施新的偏好优化损失函数，以自动发现新的最先进的偏好优化算法。
其它亮点

本文发现了一种自适应混合逻辑和指数损失的最佳性能偏好优化算法DiscoPOP，并展示了其在实验中的最先进性能和成功转移到保留任务。
相关研究

最近在这个领域中，还有一些相关的研究，如Offline Reinforcement Learning for Text Generation，Learning to Optimize Preference-Invariant Ranking Metrics，Learning to Search in Long Documents using Document Structure

Discovering Preference Optimization Algorithms with and for Large Language Models

评论