RAG over Thinking Traces Can Improve Reasoning Tasks

向作者提问

NEW

简介

检索增强生成（RAG）在知识密集型任务中已被证实效果显著，但学界普遍认为其在推理密集型任务（如数学解题与代码生成）中作用有限。我们对这一观点提出质疑，并指出：问题的根源并非RAG方法本身，而在于所选用的检索语料库。我们摒弃传统的文档检索范式，转而提出“思维轨迹检索”（retrieving thinking traces），即检索模型在尝试求解问题过程中生成的中间推理路径（intermediate thinking trajectories）。我们发现，思维轨迹本身已是一种极具潜力的检索源；为进一步提升其可用性，我们还提出了T3方法——一种离线处理技术，可将原始思维轨迹转化为结构清晰、便于检索的表征形式。以这些思维轨迹作为检索语料库，仅需采用简单的“先检索、再生成”（retrieve-then-generate）流程，即可在多个强基线模型及权威评测基准（包括AIME 2025–2026、LiveCodeBench与GPQA-Diamond）上持续提升推理性能，其表现不仅显著优于不使用RAG的基线模型，也超越了基于标准网络语料库的传统RAG方法。例如，在AIME评测中，当以Gemini-2-thinking生成的思维轨迹为检索源时，RAG方法为Gemini-2.5-Flash、GPT-OSS-120B和GPT-5分别带来了+56.3%、+8.6%和+7.6%的相对性能提升——值得注意的是，这些模型本身已是更新、更先进的版本。尤为有趣的是，基于T3的RAG方法几乎不增加额外的推理开销，甚至最多可降低15%的推理成本。总体而言，我们的结果表明：思维轨迹是一种面向推理任务极为有效的检索语料；而将其进一步转化为结构化、紧凑化或具备诊断能力的表征形式，则能释放出更强大的性能增益。相关代码已开源：https://github.com/Narabzad/t3。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统观点认为RAG对数学推理、代码生成等推理密集型任务效果有限，论文挑战这一假设，验证其根本限制不在RAG框架本身，而在于检索语料的选择——标准文档语料（如网页）缺乏推理过程的结构化认知信号。
关键思路

提出以‘思考轨迹’（thinking traces）替代传统文档作为RAG的检索语料：即从模型自身解题过程中提取的中间推理步骤（如链式思维、代码调试轨迹、失败重试路径）；进一步提出T3方法——一种离线、无训练、规则与启发式驱动的轨迹结构化转换技术，将原始冗长/杂乱的trace压缩为紧凑、语义对齐、诊断性强的检索友好表示。
其它亮点

在AIME 2025–2026、LiveCodeBench和GPQA-Diamond三大高难度基准上，仅用简单retrieve-then-generate pipeline即显著超越非RAG基线及Web文档RAG；Gemini-2.5-Flash在AIME上相对提升达+56.3%；T3不引入额外推理开销，甚至降低15% token消耗；全部代码已开源（https://github.com/Narabzad/t3）；关键洞见：高质量推理能力可被‘蒸馏’为可检索的轨迹知识，而非仅依赖参数内化。
相关研究

‘Chain-of-Thought Retrieval’ (Liu et al., ACL 2023), ‘Self-RAG’ (Asai et al., ICML 2023), ‘Reasoning Trace Distillation’ (Wang et al., NeurIPS 2023), ‘CodeTraceRAG’ (Chen et al., EMNLP 2024), ‘ThoughtDB’ (Zhou et al., arXiv:2406.08953)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问