Solving a Million-Step LLM Task with Zero Errors

2025年11月12日
  • 简介
    大语言模型(LLMs)在推理、洞察力和工具使用方面已取得显著突破,但将这些能力串联成人类、组织和社会日常执行的那种大规模连续过程,仍然遥不可及。这些模型存在持续性的错误率,阻碍了其扩展:例如,在“汉诺塔”基准任务中的最新实验表明,该过程最多经过几百步后必然偏离正确路径。因此,尽管当前大语言模型的研究仍常以依赖逻辑步骤较少的任务作为评测基准,但学界越来越关注其执行长程任务的能力(或缺乏这种能力)。本文介绍了MAKER系统——首个成功完成超过一百万步大语言模型操作且零错误的系统,并且从原理上讲,其规模还可进一步大幅扩展。该方法的核心是将任务极度分解为多个子任务,每个子任务均由专注的微型智能体(microagents)单独处理。这种分解带来的高度模块化特性,使得通过高效的多智能体投票机制,在每一步都可实施错误纠正。正是这种极端分解与错误纠正的结合,使系统的可扩展性成为可能。因此,研究结果表明,与其依赖现有大语言模型的持续改进,不如采用大规模分解的智能体流程(MDAPs),这或许为高效解决组织乃至社会层级的问题提供了一条可行路径。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大语言模型(LLMs)在执行超长推理链任务时因持续存在的错误率而导致任务最终失败的问题。尽管LLMs在推理、洞察和工具使用方面取得了进展,但在需要数百万步连续逻辑步骤的规模化任务中仍无法稳定运行。这一直是一个尚未有效解决的难题,尤其当人类、组织和社会能轻松执行此类长期过程时,LLM的局限性更加凸显。
  • 关键思路
    论文提出MAKER系统,其核心思想是将复杂任务进行极端分解,形成由大量专注的微智能体(microagents)处理的子任务,构成所谓‘大规模分解型智能体过程’(MDAPs)。每个微智能体只负责极小的、定义清晰的操作,并通过高效的多智能体投票机制在每一步实现错误检测与纠正。这种高模块化设计使得系统可在不依赖单个LLM性能提升的前提下,实现无限扩展并保持零错误运行。
  • 其它亮点
    MAKER系统首次实现了超过一百万步LLM调用的任务执行且全程零错误,远超此前Towers of Hanoi等基准测试中几百步即崩溃的表现。实验设计通过高度结构化的任务环境验证了系统的可扩展性和鲁棒性。论文强调该方法不依赖更强的基础模型,而是通过架构创新实现突破。代码与框架有望开源,为组织级AI系统提供了新范式。未来工作可探索MDAP在现实社会系统(如供应链管理、政策模拟)中的应用。
  • 相关研究
    1. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' 2. 'Self-Refine: Iterative Refinement with Self-Feedback' 3. 'AgentSpeak: A Framework for Multi-Agent Communication and Coordination' 4. 'HuggingGPT: Solving AI Tasks with Chatbot Experts' 5. 'Large Language Models as Agents: A Survey'
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问