LLM-POET: Evolving Complex Environments using Large Language Models

2024年06月07日
  • 简介
    在人工智能领域,创建能够生成几乎无限复杂和新颖行为的系统,而不需要预设目标或限制,是一个重大挑战。通过开发几种开放式算法来不断生成新的和多样化的行为,如POET和Enhanced-POET算法来共同进化环境和代理行为,这一挑战已得到解决。然而,现有方法的一个挑战是它们难以持续生成复杂的环境。在这项工作中,我们提出了LLM-POET,这是POET算法的一种改进,其中环境是使用大型语言模型(LLM)创建和变异的。通过使用Evolution Gym环境的文本表示和描述环境的标题来微调LLM,我们能够使用自然语言生成复杂和多样化的环境。我们发现,LLM不仅能够产生各种各样的环境,而且与Enhanced-POET中用于环境生成的CPPN相比,LLM允许共同进化的性能提高了34%。这种提高的性能表明,代理能够通过在更复杂的环境中训练来学习更多样化的技能。
  • 图表
  • 解决问题
    本论文旨在解决AI领域中一个重要的挑战:如何创建能够连续生成新的、多样化的行为的系统,而不需要预设目标或限制?同时,该论文也试图解决现有方法在持续生成复杂环境方面的困难。
  • 关键思路
    论文提出了一种名为LLM-POET的算法,通过使用大型语言模型(LLM)来创建和变异环境,从而解决了现有方法在环境生成方面的困难。通过使用文本表示的Evolution Gym环境和描述环境的标题来微调LLM,可以使用自然语言生成复杂和多样化的环境。与Enhanced-POET中使用的CPPNs相比,LLM允许协同进化的性能提高了34%,这表明代理可以通过在更复杂的环境中训练来学习更多样化的技能。
  • 其它亮点
    该论文的亮点包括使用LLM来生成复杂和多样化的环境,以及通过协同进化的性能提高来证明LLM相对于CPPNs的优势。实验设计了一系列的环境和代理,使用了Evolution Gym数据集,并提供了开源代码。该论文的工作为持续生成新的、多样化的行为提供了一种新的方法,并为自然语言生成和协同进化的研究提供了新的思路。
  • 相关研究
    最近的相关研究包括使用自适应环境生成算法的研究,以及使用自我复制神经网络的研究。其中一些论文的标题包括“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”和“Neural Program Synthesis with Priority Queue Training”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论