A Survey on LLM Inference-Time Self-Improvement

简介

最近，通过在测试时增加计算来增强推理的技术引起了关注。在这篇综述中，我们从三个不同的角度调查了大型语言模型（LLM）推理时自改进的现状：独立自改进，专注于通过解码或采样方法进行增强；情境感知自改进，利用额外的上下文或数据存储；以及模型辅助自改进，通过模型协作实现改进。我们对最近的相关研究进行了全面回顾，提供了一个深入的分类，并讨论了挑战和局限性，为未来的研究提供了见解。
图表
解决问题

该论文试图解决如何通过增加测试时的计算量来增强大型语言模型（LLM）推理性能的问题。这是一个相对较新的问题，随着大型语言模型的普及和应用，如何在保持高效的同时提升其推理质量成为了研究热点。
关键思路

论文的关键思路是从三个不同角度探讨了LLM在推理时间的自我改进：独立自我改进（通过解码或采样方法）、情境感知自我改进（利用额外的上下文或数据存储）以及模型辅助自我改进（通过模型协作）。这种方法不仅系统地总结了当前的研究进展，还提出了一个详细的分类体系，有助于指导未来的研究方向。
其它亮点

论文提供了一个全面的文献综述，并深入分析了每种自我改进方法的具体实现和技术细节。此外，作者讨论了当前技术面临的挑战和局限性，指出了未来可能的研究方向。值得注意的是，虽然论文没有提及具体的实验设计、使用的数据集或开源代码，但它为后续研究提供了宝贵的理论基础和实践指导。
相关研究

近年来，在这个领域内有许多相关研究，例如： 1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' 探讨了通过链式思维提示来激发大型语言模型中的推理能力。 2. 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' 研究了自一致性对链式思维推理的影响。 3. 'Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks' 提出了检索增强生成方法以应对知识密集型自然语言处理任务。这些研究共同推动了LLM推理性能的提升。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论