- 简介程序化强化学习(PRL)已经被探索用来通过程序来表示政策,以实现可解释性和泛化性。尽管取得了有希望的结果,但目前最先进的PRL方法受到样本效率的限制,需要数千万个程序-环境交互。为了解决这个挑战,我们引入了一种新颖的LLM引导搜索框架(LLM-GS)。我们的关键洞察是利用LLM的编程专业知识和常识推理,增强无假设、随机猜测搜索方法的效率。我们通过提出一种Pythonic-DSL策略来解决LLM无法生成精确和语法正确的特定领域语言(DSL)程序的挑战,即指示LLM最初生成Python代码,然后将其转换为DSL程序。为了进一步优化LLM生成的程序,我们开发了一种名为Scheduled Hill Climbing的搜索算法,旨在高效地探索程序搜索空间以持续改进程序。在Karel领域的实验结果表明,我们的LLM-GS框架具有卓越的有效性和效率。广泛的消融研究进一步验证了我们的Pythonic-DSL策略和Scheduled Hill Climbing算法的关键作用。
-
- 图表
- 解决问题如何提高编程策略的效率和可解释性?当前的PRL方法存在什么问题?
- 关键思路利用LLM引导搜索的框架来提高编程搜索的效率,通过Pythonic-DSL策略将LLM生成的Python代码转化为DSL程序,并使用Scheduled Hill Climbing算法进一步优化程序。
- 其它亮点实验结果表明,LLM-GS框架具有优异的效率和有效性。论文的Pythonic-DSL策略和Scheduled Hill Climbing算法也得到了验证。论文使用了Karel数据集进行实验,并开源了代码。
- 近期的相关研究包括:"Program Synthesis using Examples Domain-Specific Language"和"Neural Program Synthesis with Priority Queue Training"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流