Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search

简介

在这项工作中，我们考虑了代码世界模型，它是由大型语言模型（LLM）生成的世界模型，采用Python代码形式进行基于模型的强化学习（RL）规划。与使用LLM进行规划相比，调用代码具有精确、可靠、可解释和极其高效的优点。然而，编写适当的代码世界模型需要具备理解复杂指令、生成具有非平凡逻辑的精确代码以及通过单元测试和环境轨迹的反馈进行自我调试的能力。为了解决这些挑战，我们提出了一种新的代码生成策略，即蒙特卡罗树搜索生成、改进和修复（GIF-MCTS）来生成LLM。为了测试我们的方法，我们引入了代码世界模型基准测试（CWMB），它由18个不同的RL环境、相应的文本描述和策划轨迹组成的程序合成和规划任务套件。GIF-MCTS在CWMB和另外两个基准测试中均超过了所有基线，并且我们展示了用它合成的代码世界模型可以成功用于规划，从而产生具有极大样本效率和推理速度的基于模型的RL代理。
图表
解决问题

本论文旨在解决使用Python代码生成模型的可解释性、可靠性和效率问题，提出了一种新的代码生成策略GIF-MCTS，并在Code World Models Benchmark（CWMB）和其他两个基准测试中验证了其有效性。
关键思路

GIF-MCTS是一种新的代码生成策略，使用蒙特卡洛树搜索算法来生成、改进和修复LLMs的代码，从而生成可解释、可靠且高效的Code World Models。
其它亮点

论文提出了一个新的基准测试CWMB，包含18个RL环境及其相应的文本描述和策略，GIF-MCTS在CWMB和其他两个基准测试中表现优异。实验结果表明，使用GIF-MCTS生成的Code World Models可以成功用于计划，提高了模型的采样效率和推理速度。
相关研究

最近在这个领域中，还有一些相关的研究，如Code Generation from Natural Language Using Transformer和CodeBERT：A Pre-Trained Model for Programming and Natural Language Processing。

Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search

评论