Recursive Language Models - 智源社区论文

向作者提问

NEW

简介

我们通过推理时扩展的视角，研究了如何使大语言模型（LLMs）能够处理任意长度的输入提示。为此，我们提出了递归语言模型（Recursive Language Models, RLMs），这是一种通用的推理策略，它将长提示视为外部环境的一部分，允许大语言模型以程序化方式检视、分解提示片段，并在这些片段上递归地调用自身。我们发现，RLMs 能够成功处理超出模型上下文窗口达两个数量级的输入；即使对于较短的提示，在四种不同的长上下文任务中，其表现也显著优于基础大语言模型和常见的长上下文架构，且每次查询的成本相当甚至更低。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

如何让大语言模型（LLMs）有效处理远超其原始上下文窗口长度的输入序列，是当前自然语言处理中的一个关键挑战。传统方法受限于固定长度的上下文窗口，难以高效、准确地处理超长文本。本文探索在推理时进行扩展的方法，试图验证：是否可以通过程序化机制使LLM在不依赖更长训练上下文的情况下，依然有效处理任意长度的输入。这是一个正在受到越来越多关注的问题，但现有方案如滑动窗口、摘要或向量检索等往往牺牲信息完整性或推理一致性，因此需要更系统、可扩展的解决方案。
关键思路

提出递归语言模型（Recursive Language Models, RLMs），将长输入视为外部环境，允许LLM通过程序化方式主动选择查看、分解输入片段，并递归地调用自身进行推理。该方法不修改模型结构或训练过程，而是在推理时引入控制流机制，实现对超长输入的动态访问与分治处理。相比当前主流的长上下文处理方法（如扩大上下文窗口或使用检索增强），RLM的核心新意在于将LLM视为‘智能代理’，具备主动查询和递归思考的能力，从而实现指数级的上下文覆盖能力。
其它亮点

实验表明RLM能处理比原模型上下文长度高出两个数量级的输入（例如从4k token扩展到超过1M token），并在四个多样化的长文本任务上显著优于基线LLM及常见长上下文架构（如Chunk+Retrieve、MapReduce等）。性能提升同时伴随成本持平甚至更低，体现出高性价比。实验设计涵盖问答、摘要、复杂推理等任务，使用了如narrativeQA、QMSum、MultiHop-RAG等标准长上下文基准。论文未明确提及代码开源，但方法具有强可复现性。值得深入的方向包括：将RLM与实际Agent系统结合、优化递归调用效率、探索训练时对递归行为的建模。
相关研究

1. 'Large Language Models as Optimizers' (2023) 2. 'ReAct: Synergizing Reasoning and Acting in Language Models' (2023) 3. 'Self-Refine: Iterative Refinement with Self-Feedback' (2023) 4. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' (2022) 5. 'Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks' (2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问