Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

2025年05月26日
  • 简介
    近期,大型语言模型(LLMs)的进步使得智能体能够自主执行复杂且开放性的任务。然而,许多现有的框架严重依赖于人工预定义的工具和工作流,这限制了它们在不同领域中的适应性、可扩展性和泛化能力。在本研究中,我们提出了Alita——一款基于“极简即极致”设计理念的通用智能体,通过最少的预定义和最大的自我演化能力,实现可扩展的代理推理。 为了实现最少预定义,Alita仅配备了一个用于直接解决问题的组件,相比以往依赖大量手工设计、复杂的工具和工作流的方法,这一设计更加简洁明了。这种清晰的设计提升了其应对挑战性问题的能力,而不受工具的限制。 为了实现最大自我演化,我们为Alita提供了多种通用组件,使其能够通过生成与任务相关的模型上下文协议(MCPs)从开源资源中自主构建、优化和复用外部能力,从而促进可扩展的代理推理。值得注意的是,Alita在GAIA基准验证数据集上取得了75.15%的Pass@1准确率和87.27%的Pass@3准确率,在通用智能体中排名第一;同时在MathVista和PathVQA数据集上分别取得了74.00%和52.00%的Pass@1准确率,表现优于许多复杂度更高的代理系统。更多细节将在以下链接更新:[https://github.com/CharlesQ9/Alita](https://github.com/CharlesQ9/Alita)。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前代理系统在执行复杂、开放任务时对人工预定义工具和工作流的过度依赖问题,这种依赖限制了系统的适应性、可扩展性和跨领域泛化能力。这是一个长期存在的问题,但本文尝试通过简化设计和增强自我进化能力来提供新的解决方案。
  • 关键思路
    关键思路是提出一个极简主义设计原则('Simplicity is the ultimate sophistication'),即通过最小化预定义组件(仅包含一个直接问题解决模块)和最大化自我进化能力(通过生成任务相关的模型上下文协议MCPs来自主构建、优化和复用外部能力)。相比现有研究,这种方法显著减少了对复杂工具链的依赖,同时增强了系统的自主学习与泛化能力。
  • 其它亮点
    论文在多个基准测试中表现出色,例如在GAIA验证数据集上达到75.15%(pass@1)和87.27%(pass@3)的准确率,在MathVista和PathVQA上也取得了领先结果。此外,项目代码已开源至GitHub(https://github.com/CharlesQ9/Alita),为后续研究提供了良好的基础。未来可以进一步探索MCP生成机制以及在更多实际应用场景中的表现。
  • 相关研究
    近期相关研究包括:1)《ToolBench: A Framework for Building Generalist Agents with Predefined Tools》探讨了通过预定义工具提升代理能力的方法;2)《AutoAgent: Autonomous Tool Construction for Language Models》研究了语言模型自动构建工具的能力;3)《Leveraging External Knowledge for Complex Reasoning in LLMs》讨论了如何利用外部知识增强LLMs的推理能力。这些研究均从不同角度关注代理系统的改进,而本文则更强调简化设计与自我进化能力的结合。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问