Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

向作者提问

NEW

简介

近期，大型语言模型（LLMs）的进步使得智能体能够自主执行复杂且开放性的任务。然而，许多现有的框架严重依赖于人工预定义的工具和工作流，这限制了它们在不同领域中的适应性、可扩展性和泛化能力。在本研究中，我们提出了Alita——一款基于“极简即极致”设计理念的通用智能体，通过最少的预定义和最大的自我演化能力，实现可扩展的代理推理。为了实现最少预定义，Alita仅配备了一个用于直接解决问题的组件，相比以往依赖大量手工设计、复杂的工具和工作流的方法，这一设计更加简洁明了。这种清晰的设计提升了其应对挑战性问题的能力，而不受工具的限制。为了实现最大自我演化，我们为Alita提供了多种通用组件，使其能够通过生成与任务相关的模型上下文协议（MCPs）从开源资源中自主构建、优化和复用外部能力，从而促进可扩展的代理推理。值得注意的是，Alita在GAIA基准验证数据集上取得了75.15%的Pass@1准确率和87.27%的Pass@3准确率，在通用智能体中排名第一；同时在MathVista和PathVQA数据集上分别取得了74.00%和52.00%的Pass@1准确率，表现优于许多复杂度更高的代理系统。更多细节将在以下链接更新：[https://github.com/CharlesQ9/Alita](https://github.com/CharlesQ9/Alita)。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前代理系统在执行复杂、开放任务时对人工预定义工具和工作流的过度依赖问题，这种依赖限制了系统的适应性、可扩展性和跨领域泛化能力。这是一个长期存在的问题，但本文尝试通过简化设计和增强自我进化能力来提供新的解决方案。
关键思路

关键思路是提出一个极简主义设计原则（'Simplicity is the ultimate sophistication'），即通过最小化预定义组件（仅包含一个直接问题解决模块）和最大化自我进化能力（通过生成任务相关的模型上下文协议MCPs来自主构建、优化和复用外部能力）。相比现有研究，这种方法显著减少了对复杂工具链的依赖，同时增强了系统的自主学习与泛化能力。
其它亮点

论文在多个基准测试中表现出色，例如在GAIA验证数据集上达到75.15%（pass@1）和87.27%（pass@3）的准确率，在MathVista和PathVQA上也取得了领先结果。此外，项目代码已开源至GitHub（https://github.com/CharlesQ9/Alita），为后续研究提供了良好的基础。未来可以进一步探索MCP生成机制以及在更多实际应用场景中的表现。
相关研究

近期相关研究包括：1)《ToolBench: A Framework for Building Generalist Agents with Predefined Tools》探讨了通过预定义工具提升代理能力的方法；2)《AutoAgent: Autonomous Tool Construction for Language Models》研究了语言模型自动构建工具的能力；3)《Leveraging External Knowledge for Complex Reasoning in LLMs》讨论了如何利用外部知识增强LLMs的推理能力。这些研究均从不同角度关注代理系统的改进，而本文则更强调简化设计与自我进化能力的结合。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问