Enhancing Q-Learning with Large Language Model Heuristics

2024年05月06日
  • 简介
    Q-learning在顺序决策任务中学习反馈方面表现出色,但需要大量采样才能显著提高效果。虽然奖励塑形是增强学习效率的强大技术,但可能会引入影响代理性能的偏差。此外,基于潜在的奖励塑形受到限制,因为它不允许基于行动或终止状态进行奖励修改,可能会限制其在复杂环境中的有效性。此外,大型语言模型(LLMs)可以实现零-shot学习,但通常仅限于较简单的任务。它们还表现出低推理速度,偶尔会产生幻觉。为了解决这些问题,我们提出了LLM-guided Q-learning,它利用LLMs作为启发式来帮助学习强化学习的Q函数。它结合了两种技术的优点,而不引入性能偏差。我们的理论分析表明,LLM启发式提供了行动级别的指导。此外,我们的架构具有将幻觉的影响转化为探索成本的能力。此外,收敛的Q函数对应于MDP最优Q函数。实验结果表明,我们的算法使代理能够避免无效的探索,增强采样效率,并且非常适合复杂的控制任务。
  • 图表
  • 解决问题
    本论文旨在提出一种新的强化学习算法,解决Q-learning需要大量采样和奖励塑造引入偏差的问题,同时结合大型语言模型(LLM)的优势,提高学习效率和速度。
  • 关键思路
    该算法结合了Q-learning和LLMs的优点,使用LLMs作为启发式算法辅助Q函数的学习,避免了性能偏差,并能够将幻觉转化为探索成本。理论分析证明了LLM启发式算法提供了动作级别的指导。最终的Q函数与MDP最优Q函数相对应。
  • 其它亮点
    该算法能够避免无效探索,提高采样效率,并适用于复杂控制任务。实验结果表明,该算法具有很好的性能。
  • 相关研究
    与该论文相关的其他研究包括:使用LLMs进行零样本学习的研究,以及强化学习中奖励塑造和探索技术的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论