- 简介我们介绍了LLM-ARC,这是一个神经符号框架,旨在通过将其与自动推理评论家(ARC)相结合,增强大型语言模型(LLMs)的逻辑推理能力。LLM-ARC采用了Actor-Critic方法,其中LLM Actor生成声明性逻辑程序以及语义正确性测试,而自动推理评论家评估代码,运行测试并提供有关测试失败的反馈,以进行迭代改进。使用答案集编程(ASP)实现的LLM-ARC在FOLIO基准测试中实现了88.32%的新的最先进准确性,该基准测试了复杂的逻辑推理能力。我们的实验表明,与仅使用LLM的基线相比,LLM-ARC在逻辑测试生成和迭代自我改进方面取得了显着的改进。我们使用完全自动化的自我监督训练循环实现了最佳结果,其中Actor在端到端的对话跟踪上接受Critic反馈进行训练。我们讨论了潜在的增强措施,并提供了详细的错误分析,展示了LLM-ARC在复杂的自然语言推理任务中的健壮性和功效。
- 图表
- 解决问题本篇论文旨在解决如何通过结合自动推理批判(ARC)和大型语言模型(LLM)来提高LLM的逻辑推理能力的问题,以及验证这种方法是否有效。
- 关键思路LLM-ARC采用了Actor-Critic方法,其中LLM Actor生成声明性逻辑程序以及语义正确性测试,而ARC则评估代码,运行测试并提供反馈以进行迭代改进。LLM-ARC使用ASP实现,实现了88.32%的FOLIO基准测试的新的最先进准确度,这个基准测试考察了复杂的逻辑推理能力。
- 其它亮点本论文的亮点包括使用自动推理批判来提高大型语言模型的逻辑推理能力,以及使用自我监督训练循环来训练Actor。实验结果表明,LLM-ARC相比仅使用LLM的基线模型有了显著的改进。此外,论文还提供了详细的错误分析和讨论了潜在的改进方向。
- 最近在这个领域中,还有一些相关研究被进行,例如《Improving Language Understanding by Generative Pre-Training》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。


提问交流