TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling

2024年10月18日
  • 简介
    推理时对齐提高了大型语言模型的性能,而无需额外的训练或微调,但面临着在计算效率与高质量输出之间取得平衡的挑战。最佳N选一(Best-of-N,BoN)采样作为一种简单而强大的方法,通过生成多个响应并选择最佳的一个,实现了性能的提升,但计算成本较高。我们提出了TreeBoN,这是一种将推测性树搜索策略融入最佳N选一(BoN)采样的新框架。TreeBoN 维护一组父节点,通过迭代地分支和剪枝低质量的响应,从而减少计算开销,同时保持高输出质量。我们的方法还利用直接偏好优化(Direct Preference Optimization,DPO)提供的逐词奖励来指导树的扩展和剪枝低质量路径。我们使用 AlpacaFarm、HH-RLHF、UltraFeedback、GSM8K 和 TutorEval 数据集对 TreeBoN 进行了评估,展示了其一致的改进效果。具体来说,TreeBoN 在 TutorEval 上取得了最高的胜率 65%,在其他不同数据集上也达到了约 60% 的胜率,优于具有相同计算成本的标准 BoN 方法,展现了其可扩展性和对齐效能。
  • 图表
  • 解决问题
    该论文试图解决在大型语言模型中提高推理时对齐性能的问题,同时保持计算效率与高质量输出之间的平衡。这是一个在现有研究中已存在的问题,但目前的方法往往需要额外的训练或微调,或者在计算成本上较高。
  • 关键思路
    论文提出了一种名为TreeBoN的新框架,该框架将投机性树搜索策略与Best-of-N (BoN)采样相结合。通过维护一组父节点并迭代地分支和剪枝低质量响应,TreeBoN能够在减少计算开销的同时保持高输出质量。此外,TreeBoN利用直接偏好优化(DPO)的逐词奖励来指导树的扩展和剪枝低质量路径。
  • 其它亮点
    论文在AlpacaFarm、HH-RLHF、UltraFeedback、GSM8K和TutorEval等多个数据集上评估了TreeBoN,展示了其一致的改进效果。特别是在TutorEval数据集上,TreeBoN达到了最高的65%胜率,在其他数据集上也获得了约60%的胜率。这些结果表明,TreeBoN不仅在相同的计算成本下优于标准BoN,还展示了其可扩展性和对齐效能。论文还提到未来可以进一步研究如何优化树搜索策略和奖励机制,以进一步提升性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Reinforcement Learning from Human Feedback》、《Direct Preference Optimization: Reinforcement Learning with Human Preferences and Scalar Rewards》和《Tree-based Sampling Over Distributions of Trees for Sequential Data Generation》等。这些研究都探讨了如何通过不同的方法来提高大型语言模型的对齐性能和生成质量。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论