Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search

简介

程序化强化学习（PRL）已经被探索用来通过程序来表示政策，以实现可解释性和泛化性。尽管取得了有希望的结果，但目前最先进的PRL方法受到样本效率的限制，需要数千万个程序-环境交互。为了解决这个挑战，我们引入了一种新颖的LLM引导搜索框架（LLM-GS）。我们的关键洞察是利用LLM的编程专业知识和常识推理，增强无假设、随机猜测搜索方法的效率。我们通过提出一种Pythonic-DSL策略来解决LLM无法生成精确和语法正确的特定领域语言（DSL）程序的挑战，即指示LLM最初生成Python代码，然后将其转换为DSL程序。为了进一步优化LLM生成的程序，我们开发了一种名为Scheduled Hill Climbing的搜索算法，旨在高效地探索程序搜索空间以持续改进程序。在Karel领域的实验结果表明，我们的LLM-GS框架具有卓越的有效性和效率。广泛的消融研究进一步验证了我们的Pythonic-DSL策略和Scheduled Hill Climbing算法的关键作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提高编程策略的效率和可解释性？当前的PRL方法存在什么问题？
关键思路

利用LLM引导搜索的框架来提高编程搜索的效率，通过Pythonic-DSL策略将LLM生成的Python代码转化为DSL程序，并使用Scheduled Hill Climbing算法进一步优化程序。
其它亮点

实验结果表明，LLM-GS框架具有优异的效率和有效性。论文的Pythonic-DSL策略和Scheduled Hill Climbing算法也得到了验证。论文使用了Karel数据集进行实验，并开源了代码。
相关研究

近期的相关研究包括："Program Synthesis using Examples Domain-Specific Language"和"Neural Program Synthesis with Priority Queue Training"。

Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search

提问交流

提问交流