Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

简介

尽管大型语言模型在各种任务中具有令人印象深刻的能力，但它们仍然难以处理涉及复杂推理和规划的场景。最近的研究提出了先进的提示技术和需要高质量数据的微调，以增强LLM的推理能力。然而，这些方法受数据可用性和质量的固有限制。因此，在自我纠正和自我学习方面出现了可行的解决方案，采用允许LLM改进其输出并从自我评估奖励中学习的策略。然而，LLM在自我提炼其响应方面的功效，特别是在复杂的推理和规划任务中，仍然存在疑虑。在本文中，我们介绍了用于LLM自我改进的AlphaLLM，它将蒙特卡罗树搜索（MCTS）与LLM集成，建立自我改进循环，从而增强LLM的能力，而无需额外的注释。受AlphaGo成功的启发，AlphaLLM解决了将MCTS与LLM相结合进行自我改进的独特挑战，包括数据稀缺性，语言任务的广泛搜索空间以及语言任务中反馈的主观性质。AlphaLLM由提示合成组件、针对语言任务量身定制的高效MCTS方法和三个评论模型组成，用于提供精确的反馈。我们在数学推理任务中的实验结果表明，AlphaLLM显着提高了LLM的性能，而无需额外的注释，展示了LLM自我改进的潜力。
图表
解决问题

本论文旨在解决大语言模型（LLMs）在涉及复杂推理和规划的场景中仍然存在困难的问题，提出了一种将蒙特卡罗树搜索（MCTS）与LLMs集成的解决方案，以建立自我改进循环，从而在不需要额外注释的情况下增强LLMs的能力。
关键思路

本论文的关键思路是将MCTS与LLMs相结合，建立自我改进循环，从而提高LLMs的性能。AlphaLLM由提示合成组件、针对语言任务量身定制的高效MCTS方法和三个评论模型组成。
其它亮点

论文通过实验展示了AlphaLLM在数学推理任务中显著提高了LLMs的性能，而不需要额外的注释。该论文的亮点包括使用MCTS解决语言任务中的数据稀缺性、搜索空间巨大和反馈主观性等问题，以及AlphaLLM的三个评论模型提供了精确的反馈。
相关研究

最近在这个领域中，还有一些相关研究，如使用先验知识改进LLMs的性能（Prior-aware Large Language Model），使用自我监督学习提高LLMs的性能（Self-Supervised Learning for Large Language Models），以及使用迁移学习来提高LLMs的性能（Transfer Learning for Large Language Models）。

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

评论