Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models

2024年05月24日
  • 简介
    Go-Explore是一组强大的算法,旨在解决难以探索的问题,其原则是存档已发现的状态,并从最有前途的状态开始迭代地返回并进行探索。这种方法已经在包括Atari游戏和机器人控制在内的各种具有挑战性的问题上实现了超人类表现,但需要手动设计启发式算法来指导探索,这在一般情况下是耗时且不可行的。为了解决这个问题,我们提出了智能Go-Explore(IGE),通过用巨型基础模型(FMs)捕捉的有趣性的人类智能和内化的人类概念来取代这些启发式算法,从而大大扩展了原始Go-Explore的范围。这为IGE提供了一种类似于人类的能力,可以本能地识别任何新状态的有趣或有前途的程度(例如发现新对象、位置或行为),即使在难以定义启发式算法的复杂环境中也是如此。此外,IGE还提供了一种令人兴奋且以前不可能的机会,即识别和利用无法预测的偶然发现。我们在一系列需要搜索和探索的基于语言的任务中评估了IGE。在24点游戏中,IGE在多步数学推理问题上达到了100%的成功率,比最佳经典图搜索基线快70.8%。接下来,在BabyAI-Text中,一个具有挑战性的部分可观察网格世界,IGE在数量级更少的在线样本的情况下超越了以前的SOTA。最后,在TextWorld中,我们展示了IGE在需要长期探索的环境中成功的独特能力,在此之前,像Reflexion这样的SOTA FM代理完全失败。总的来说,IGE结合了FMs的巨大优势和强大的Go-Explore算法,开辟了一个新的研究领域,旨在创建更具有惊人探索能力的普遍能力代理。
  • 作者讲解
  • 图表
  • 解决问题
    Intelligent Go-Explore: A Reinforcement Learning Algorithm that Efficiently Explores Complex Environments
  • 关键思路
    The key idea of the paper is to replace manually designed heuristics in the Go-Explore algorithm with the intelligence and internalized human notions of interestingness captured by giant foundation models (FMs) to provide a human-like ability to instinctively identify how interesting or promising any new state is, even in complex environments where heuristics are hard to define.
  • 其它亮点
    The paper evaluates the Intelligent Go-Explore (IGE) algorithm on a range of language-based tasks that require search and exploration. IGE combines the strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities. The experiments show that IGE outperforms previous SOTA algorithms in Game of 24, BabyAI-Text, and TextWorld with fewer online samples. The paper also highlights the unique ability of IGE to recognize and capitalize on serendipitous discoveries that cannot be predicted ahead of time.
  • 相关研究
    Related work includes the original Go-Explore algorithm, as well as recent research in reinforcement learning and exploration such as Reflexion.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问