Direct Multi-Turn Preference Optimization for Language Agents

2024年06月21日
  • 简介
    将大型语言模型(LLMs)应用于代理任务对于开发语言代理至关重要。直接偏好优化(DPO)是一种有前途的技术,可以通过缓解复合错误来适应此适应,并提供一种直接优化强化学习(RL)目标的方法。然而,将DPO应用于多轮任务存在挑战,因为无法取消分区函数。克服这个障碍需要使分区函数独立于当前状态,并解决首选和不首选轨迹之间的长度差异。因此,我们将策略约束替换为RL目标中的状态-动作占用度量约束,并在Bradley-Terry模型中添加长度归一化,从而产生一种名为DMPO的新损失函数,用于多轮代理任务并具有理论解释。对三个多轮代理任务数据集进行的广泛实验证实了DMPO损失的有效性和优越性。
  • 图表
  • 解决问题
    本论文旨在解决将大型语言模型(LLMs)应用于代理任务时遇到的问题,特别是在多轮任务中应用DPO技术时遇到的挑战,如何克服分区函数的问题以及如何处理首选和不首选轨迹之间的长度差异。
  • 关键思路
    该论文提出了一种新的损失函数DMPO,通过将策略约束替换为RL目标中的状态-动作占用度量约束,并在Bradley-Terry模型中添加长度归一化,使分区函数与当前状态无关,从而解决了多轮任务中应用DPO技术时遇到的挑战。
  • 其它亮点
    该论文通过在三个多轮代理任务数据集上进行广泛的实验,证明了DMPO损失的有效性和优越性。同时,该论文还提供了理论解释,并探讨了该方法的局限性和未来研究方向。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Efficient Natural Language Response Suggestion with Deep Reinforcement Learning》和《Learning to Ask Questions in Open-domain Conversational Systems with Typed Decoders》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论