Self-Exploring Language Models: Active Preference Elicitation for Online Alignment

2024年05月29日
  • 简介
    优化偏好,特别是通过人类反馈的强化学习(RLHF),已经在使大型语言模型(LLM)遵循人类意图方面取得了显著成功。与使用固定数据集的离线对齐不同,从人类或AI收集模型生成的在线反馈通常通过迭代过程导致更能胜任的奖励模型和更好对齐的LLM。然而,要实现全局准确的奖励模型需要系统性探索以生成跨越自然语言广阔空间的多样响应。仅从标准奖励最大化的LLM中进行随机抽样是不足以满足这一要求的。为了解决这个问题,我们提出了一个双层目标,对可能具有高回报的响应进行乐观偏差,以积极探索分布区域。通过使用重新参数化的奖励函数解决内层问题,得到的算法名为自我探索语言模型(SELM),消除了需要单独的奖励模型,并用简单的目标迭代更新LLM。与直接偏好优化(DPO)相比,SELM目标减少了对未见过的外推的武断偏爱,并提高了探索效率。我们的实验结果表明,当在Zephyr-7B-SFT和Llama-3-8B-Instruct模型上微调时,SELM显著提高了指令遵循基准测试的性能,如MT-Bench和AlpacaEval 2.0,以及不同环境中的各种标准学术基准测试。我们的代码和模型可在https://github.com/shenao-zhang/SELM上获得。
  • 图表
  • 解决问题
    论文旨在通过自我探索语言模型(SELM)算法解决基于强化学习的语言模型(LLMs)优化中的全局奖励模型不准确和探索效率低下的问题。
  • 关键思路
    SELM算法通过内层问题中重新参数化的奖励函数解决全局奖励模型不准确的问题,并通过乐观偏向高奖励响应的双层目标来增强探索效率。
  • 其它亮点
    SELM算法消除了需要单独的奖励模型的需求,并显著提高了指令跟随基准测试的性能,在不同设置下的各种标准学术基准测试中也有提高。研究使用了Zephyr-7B-SFT和Llama-3-8B-Instruct模型进行微调,并提供了代码和模型。
  • 相关研究
    在这个领域中,最近的相关研究包括Direct Preference Optimization(DPO)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论