- 简介在这项工作中,从理论的角度出发,我们旨在理解为什么大型语言模型(LLM)赋能的代理能够解决物理世界中的决策问题。为此,考虑一个分层强化学习(RL)模型,其中LLM Planner和Actor分别执行高层任务规划和低层执行。在这个模型下,LLM Planner通过提示不断生成基于语言的子目标,从而通过迭代生成部分可观察的马尔可夫决策过程(POMDP)来导航。在对预训练数据做出适当假设的情况下,我们证明了预训练的LLM Planner通过上下文学习有效地执行了贝叶斯聚合模仿学习(BAIL)。此外,我们强调了超出BAIL派生的子目标的探索的必要性,证明了单纯执行LLM返回的子目标会导致线性遗憾。为此,我们引入了一个$\epsilon$-greedy探索策略到BAIL中,证明了当预训练误差很小时,它会导致次线性遗憾。最后,我们将我们的理论框架扩展到包括LLM Planner作为推断环境转换模型的世界模型的情况和多智能体设置,从而实现多个Actor之间的协调。
- 图表
- 解决问题论文旨在理解为什么大型语言模型(LLM)能够解决物理世界中的决策问题,并提出一种基于层次强化学习的模型来解释其原理。
- 关键思路论文提出了一种层次强化学习模型,其中LLM Planner和Actor分别执行高层任务规划和低层执行。LLM Planner通过提示生成基于语言的子目标来导航部分可观察的马尔可夫决策过程(POMDP),并通过在上下文学习中有效地执行贝叶斯聚合模仿学习(BAIL)。
- 其它亮点论文证明了在适当的预训练数据假设下,预训练的LLM Planner通过上下文学习有效地执行BAIL。此外,论文还证明了需要超出BAIL导出的子目标的探索性行为,否则会导致线性后悔。为此,论文引入了一种ε-贪心探索策略,证明了当预训练误差很小时,它会导致次线性后悔。最后,论文将其理论框架扩展到包括LLM Planner作为推断环境转移模型的世界模型和多智能体设置,从而实现多个Actor之间的协调。
- 最近的相关研究包括使用LLM进行强化学习的其他工作,如GPT-2 Agent和GShard等。
沙发等你来抢
去评论
评论
沙发等你来抢