ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

2024年02月29日
  • 简介
    大型语言模型(LLMs)的广泛应用之一是在目标导向的决策任务(或“代理”任务)中,LLM需要不仅为给定提示生成完成,而且需要在多轮交互中做出智能决策以完成任务(例如,在与网络交互、使用工具或提供客户支持时)。强化学习(RL)提供了一种解决这种代理任务的通用范例,但目前针对LLMs的RL方法主要集中在优化单轮回报上。构造上,大多数单轮RL方法无法赋予LLMs在多轮中智能寻求信息、执行信用分配或推理其过去行动的能力,这些都是代理任务中至关重要的。这引出了一个问题:我们如何为LLMs设计有效和高效的多轮RL算法?在本文中,我们开发了一个构建用于微调LLMs的多轮RL算法框架,该框架保留了现有单轮RL方法的灵活性(例如,近端策略优化),同时有效地适应了多轮、长时间跨度和延迟回报。为此,我们的框架采用分层RL方法,并并行运行两个RL算法:一个高层次的离线基于价值的RL算法,用于聚合话语的奖励,以及一个低层次的RL算法,利用这个高层次的价值函数训练每个话语或轮次内的令牌策略。我们的分层框架,带有层次结构的演员-评论家框架(ArCHer),也可以产生其他RL方法。实证上,我们发现ArCHer在代理任务的效率和性能方面显著提高,达到了现有方法的大约100倍的样本效率,同时在更大的模型容量(我们测试的最高达到70亿)上也有所改进。
  • 作者讲解
  • 图表
  • 解决问题
    如何设计有效且高效的多轮强化学习算法,以用于大型语言模型在目标导向决策任务中的应用?
  • 关键思路
    提出了一个基于层次强化学习的框架,通过同时运行高层和低层强化学习算法,实现对大型语言模型进行多轮训练,以有效地实现信息获取、信用分配和过去行动的推理。
  • 其它亮点
    提出的框架(ArCHer)可以显著提高在目标导向决策任务中的效率和性能,达到了100倍的样本效率,并且在模型容量更大的情况下表现更好,同时还可以产生其他强化学习方法。实验结果表明,该框架在多轮任务中的表现优于现有的方法。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》、《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问