- 简介检索增强生成(RAG)在知识密集型任务中已被证实效果显著,但学界普遍认为其在推理密集型任务(如数学解题与代码生成)中作用有限。我们对这一观点提出质疑,并指出:问题的根源并非RAG方法本身,而在于所选用的检索语料库。我们摒弃传统的文档检索范式,转而提出“思维轨迹检索”(retrieving thinking traces),即检索模型在尝试求解问题过程中生成的中间推理路径(intermediate thinking trajectories)。我们发现,思维轨迹本身已是一种极具潜力的检索源;为进一步提升其可用性,我们还提出了T3方法——一种离线处理技术,可将原始思维轨迹转化为结构清晰、便于检索的表征形式。以这些思维轨迹作为检索语料库,仅需采用简单的“先检索、再生成”(retrieve-then-generate)流程,即可在多个强基线模型及权威评测基准(包括AIME 2025–2026、LiveCodeBench与GPQA-Diamond)上持续提升推理性能,其表现不仅显著优于不使用RAG的基线模型,也超越了基于标准网络语料库的传统RAG方法。例如,在AIME评测中,当以Gemini-2-thinking生成的思维轨迹为检索源时,RAG方法为Gemini-2.5-Flash、GPT-OSS-120B和GPT-5分别带来了+56.3%、+8.6%和+7.6%的相对性能提升——值得注意的是,这些模型本身已是更新、更先进的版本。尤为有趣的是,基于T3的RAG方法几乎不增加额外的推理开销,甚至最多可降低15%的推理成本。总体而言,我们的结果表明:思维轨迹是一种面向推理任务极为有效的检索语料;而将其进一步转化为结构化、紧凑化或具备诊断能力的表征形式,则能释放出更强大的性能增益。相关代码已开源:https://github.com/Narabzad/t3。
-
- 图表
- 解决问题传统观点认为RAG对数学推理、代码生成等推理密集型任务效果有限,论文挑战这一假设,验证其根本限制不在RAG框架本身,而在于检索语料的选择——标准文档语料(如网页)缺乏推理过程的结构化认知信号。
- 关键思路提出以‘思考轨迹’(thinking traces)替代传统文档作为RAG的检索语料:即从模型自身解题过程中提取的中间推理步骤(如链式思维、代码调试轨迹、失败重试路径);进一步提出T3方法——一种离线、无训练、规则与启发式驱动的轨迹结构化转换技术,将原始冗长/杂乱的trace压缩为紧凑、语义对齐、诊断性强的检索友好表示。
- 其它亮点在AIME 2025–2026、LiveCodeBench和GPQA-Diamond三大高难度基准上,仅用简单retrieve-then-generate pipeline即显著超越非RAG基线及Web文档RAG;Gemini-2.5-Flash在AIME上相对提升达+56.3%;T3不引入额外推理开销,甚至降低15% token消耗;全部代码已开源(https://github.com/Narabzad/t3);关键洞见:高质量推理能力可被‘蒸馏’为可检索的轨迹知识,而非仅依赖参数内化。
- ‘Chain-of-Thought Retrieval’ (Liu et al., ACL 2023), ‘Self-RAG’ (Asai et al., ICML 2023), ‘Reasoning Trace Distillation’ (Wang et al., NeurIPS 2023), ‘CodeTraceRAG’ (Chen et al., EMNLP 2024), ‘ThoughtDB’ (Zhou et al., arXiv:2406.08953)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流