Atom of Thoughts for Markov LLM Test-Time Scaling

2025年02月17日
  • 简介
    大型语言模型(LLMs)通过训练时的扩展实现了卓越的性能,而测试时的扩展则进一步增强了它们的能力,使其在推理过程中能够进行有效的推理。然而,随着推理规模的增加,现有的测试时扩展方法由于累积的历史信息而面临问题,这不仅浪费了计算资源,还干扰了有效推理。为了解决这一问题,我们观察到复杂的推理过程通常是通过解决一系列独立的子问题来实现的,每个子问题都是自包含且可验证的。这些子问题本质上是原子问题,主要依赖于当前状态而不是累积的历史,类似于马尔可夫过程中的无记忆转换。 基于这一观察,我们提出了“思维原子”(Atom of Thoughts,简称 AoT),其中推理过程中的每次状态转换包括将当前问题分解为依赖关系的有向无环图,并收缩其子问题,形成一个新的原子问题状态。这种迭代的分解-收缩过程一直持续到达到可以直接解决的原子问题,从而自然地实现了问题状态之间的马尔可夫转换。此外,这些原子问题可以无缝集成到现有的测试时扩展方法中,使 AoT 能够作为插件增强功能来改进推理能力。 实验表明,在六个基准测试中,AoT 无论是作为独立框架还是插件增强功能,都展示了其有效性。特别是在 HotpotQA 上,当应用于 gpt-4o-mini 时,AoT 实现了 80.6% 的 F1 分数,超过了 o3-mini 3.4% 和 DeepSeek-R1 10.6%。代码将在 https://github.com/qixucen/atom 上提供。
  • 图表
  • 解决问题
    该论文旨在解决大型语言模型(LLMs)在进行复杂推理时,由于累积的历史信息导致的计算资源浪费和推理效果下降的问题。这是一个新问题,特别是在测试时间扩展方法中。
  • 关键思路
    关键思路是引入了‘思考原子’(Atom of Thoughts, AoT)的概念,将复杂的推理过程分解为一系列独立且自包含的子问题,每个子问题仅依赖于当前状态,类似于马尔可夫过程中的无记忆转换。这种方法通过迭代的分解-收缩过程,直到达到可以直接解决的原子问题,从而实现了推理过程中的有效状态转换。相比现有研究,AoT提供了一种新颖的、模块化的方法来改进推理能力。
  • 其它亮点
    论文的亮点包括:1) 在六个基准测试中的实验验证了AoT的有效性;2) 特别是在HotpotQA数据集上,使用gpt-4o-mini模型,AoT达到了80.6%的F1分数,显著超越了其他模型;3) 提出了一个可以作为插件增强现有测试时间扩展方法的框架;4) 论文作者承诺开源代码,方便后续研究和应用。未来值得深入研究的方向包括进一步优化AoT的效率和适用范围。
  • 相关研究
    最近在这个领域,相关研究包括:1) 使用强化学习优化推理路径;2) 引入外部知识库以增强推理能力;3) 设计更高效的推理算法。一些相关的研究论文标题包括《Enhancing Reasoning in LLMs via Reinforcement Learning》、《Knowledge-Augmented Inference for Large Language Models》和《Efficient Algorithms for Enhanced Test-Time Scaling in LLMs》。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论