- 简介"In-context learning"是一种有前途的离线强化学习方法,可以通过提供任务提示来处理在线任务。最近的研究表明,在将强化学习任务视为跨周期顺序预测问题时,"in-context RL"可以通过试错的方式自我提高。尽管自我提高不需要梯度更新,但当前的研究在跨周期序列随任务范围增加时仍然存在高计算成本的问题。因此,我们提出了一种"In-context Decision Transformer (IDT)",以高级试错的方式实现自我提高。具体而言,IDT受到人类决策制定的高效分层结构的启发,因此将序列重构为由高级决策而不是与环境交互的低级行动组成。由于一个高级决策可以引导多步低级行动,因此IDT自然避免了过长的序列,并更有效地解决在线任务。实验结果表明,IDT在长周期任务上实现了最先进的成果,超过了当前的"in-context RL"方法。特别地,我们的IDT在线评估时间在D4RL基准测试中比基线快\textbf{36倍},在Grid World基准测试中比基线快\textbf{27倍}。
- 图表
- 解决问题本文旨在提出一种高效的in-context强化学习方法以解决在线任务中的计算成本问题。当前in-context RL方法在处理跨时序序列增加时仍然存在高计算成本的问题。
- 关键思路本文提出了一种名为In-context Decision Transformer (IDT)的方法,该方法受到人类决策层次结构的启发,将序列重构为高层次决策,而不是与环境交互的低层次操作。由于一个高层次决策可以指导多步低层次操作,因此IDT自然地避免了过长的序列,并更高效地解决了在线任务。
- 其它亮点本文提出的IDT方法在D4RL基准测试中的在线评估时间比基线方法快了36倍,在Grid World基准测试中快了27倍。实验结果表明,IDT在长时序任务上取得了最新的成果。
- 与此相关的最新研究包括:《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》、《In-Context Learning for Demanding Offline Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢