TokenSkip: Controllable Chain-of-Thought Compression in LLMs

2025年02月17日
  • 简介
    思维链(Chain-of-Thought, CoT)已被证明可以有效提升大语言模型(LLMs)的推理能力。最近的进展,如OpenAI的o1和DeepSeek-R1,表明在推理过程中扩展CoT序列的长度可以进一步提高LLM的推理性能。然而,由于LLM解码的自回归特性,更长的CoT输出会导致推理延迟线性增加,从而影响用户体验,特别是在CoT超过10,000个标记时尤为明显。为了解决这一限制,我们分析了CoT输出中各个标记的语义重要性,并发现它们对推理的贡献各不相同。基于这一见解,我们提出了TokenSkip,这是一种简单而有效的方法,使LLM能够有选择地跳过不太重要的标记,从而实现可控的CoT压缩。广泛的实验表明,TokenSkip在减少CoT标记使用的同时,仍能保持强大的推理性能。特别值得一提的是,在应用于Qwen2.5-14B-Instruct时,TokenSkip在GSM8K数据集上将推理标记减少了40%(从313减少到181),且性能下降不到0.4%。
  • 图表
  • 解决问题
    该论文旨在解决大型语言模型(LLM)在进行推理时,由于链式思维(Chain-of-Thought, CoT)序列过长导致的推理延迟问题。当CoT超过10,000个token时,用户体验会受到显著影响。这是一个在提升LLM推理能力的同时保持高效响应的新挑战。
  • 关键思路
    论文提出了一种名为TokenSkip的方法,通过分析CoT中各个token的语义重要性,允许LLM跳过那些对推理贡献较小的token,从而实现可控的CoT压缩。相比现有的方法,TokenSkip不仅减少了token的数量,还保持了较高的推理性能,尤其适用于需要长CoT序列的任务。
  • 其它亮点
    论文的关键亮点包括:1) TokenSkip能够在减少40%的token使用量的情况下,仅损失不到0.4%的性能;2) 实验涵盖了多种模型和任务,验证了TokenSkip的广泛适用性;3) 使用GSM8K等数据集进行了详尽的实验验证;4) 提出的方法简单且有效,具有实际应用价值。此外,作者提到未来可以进一步探索如何更智能地选择要跳过的token,以实现更高的压缩率。
  • 相关研究
    最近在这个领域内,相关的研究还包括:1) OpenAI的o1模型,探讨了通过扩展CoT长度来增强LLM的推理能力;2) DeepSeek-R1的研究,也关注了通过增加CoT长度来提高推理表现;3) 其他相关工作如《Improving Language Model Reasoning via Chain-of-Thought Prompting》和《Enhancing LLMs with Structured Prompts for Better Reasoning》,这些研究都试图通过改进提示或结构化输入来提升LLM的推理能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论