Scaling Generalist Data-Analytic Agents

向作者提问

NEW

简介

数据解析型智能体正逐渐成为自动化科学发现以及“创新AI”愿景的关键推动力。然而，当前的方法大多严重依赖于专有模型上的提示工程，而开源模型在应对现实世界分析所要求的多格式、大规模数据文件以及长周期、多步骤推理方面仍面临显著困难。本文提出了DataMind，一种可扩展的数据合成与智能体训练方案，旨在构建通用型数据解析智能体。DataMind致力于解决构建开源数据解析智能体过程中的三大核心挑战：数据资源不足、训练策略不当，以及基于代码的多轮交互执行不稳定。具体而言，DataMind采用了以下四项关键技术：1）细粒度任务分类体系与递归式由易到难的任务组合机制，以提升合成查询的多样性与难度；2）融合知识增强的轨迹采样策略，并结合基于模型和基于规则的过滤方法；3）动态可调的训练目标，融合监督微调（SFT）与强化学习（RL）损失；4）一种内存高效且稳定的基于代码的多轮交互执行框架。基于DataMind，我们构建了DataMind-12K——一个覆盖多个领域、任务类型和数据文件格式的高质量行为轨迹数据集，适用于数据解析任务。在DataMind-12K上训练得到的DataMind-14B，在多个数据分析基准测试中平均得分达到71.16%，创下当前最优表现，超越最强的专有基线模型DeepSeek-V3.1与GPT-5。我们的DataMind-7B也在所有开源模型中表现最佳，得分为68.10%。此外，我们将探索性实验中获得的一些实证见解融入分析研究，旨在为社区提供关于智能体训练的切实可行的指导。我们将向社区公开发布DataMind-12K以及DataMind-7B和DataMind-14B，以支持后续的研究工作。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决当前开源数据解析智能体在处理多样化格式、大规模数据文件以及长周期多步骤推理任务时表现不佳的问题，同时应对现有方法过度依赖专有模型和提示工程的局限。这一问题随着自动化科学发现和Innovating AI愿景的发展变得愈发重要，但尚未被充分解决，具有较强的新颖性和现实需求。
关键思路

提出DataMind，一种可扩展的数据合成与智能体训练框架，核心包括：细粒度任务分类与递归由易到难的任务组合机制、知识增强的轨迹采样与双重过滤策略、动态调整的SFT与RL联合训练目标，以及内存高效且稳定的基于代码的多轮交互执行框架。相比以往依赖黑箱模型或简单微调的方法，DataMind系统性地优化了数据生成、训练策略与执行稳定性，为构建通用型开源数据智能体提供了新范式。
其它亮点

构建了高质量、跨领域、多文件格式的数据分析轨迹数据集DataMind-12K，并基于此训练出DataMind-7B和14B模型；在多个数据分析基准上，DataMind-14B以71.16%的平均得分超越DeepSeek-V3.1和GPT-5等最强专有模型，DataMind-7B也在开源模型中排名第一（68.10%）；团队将发布DataMind-12K数据集及模型权重，推动社区研究；实验设计涵盖多维度评估，展示了从数据合成到训练再到稳定执行的完整闭环验证。
相关研究

1. 'Large Language Models as Agents: A Survey' (2023) 2. 'AgentBench: Evaluating LLMs as Agents' (ICML 2024) 3. 'CRAG: Benchmarking Retrieval-Augmented Generation for Long-form Question Answering' (ACL 2024) 4. 'OpenAgents: Domain-Specialized Open-Source LLM Agents for Structured Data' (2024) 5. 'ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs' (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问