- 简介数据解析型智能体正逐渐成为自动化科学发现以及“创新AI”愿景的关键推动力。然而,当前的方法大多严重依赖于专有模型上的提示工程,而开源模型在应对现实世界分析所要求的多格式、大规模数据文件以及长周期、多步骤推理方面仍面临显著困难。本文提出了DataMind,一种可扩展的数据合成与智能体训练方案,旨在构建通用型数据解析智能体。DataMind致力于解决构建开源数据解析智能体过程中的三大核心挑战:数据资源不足、训练策略不当,以及基于代码的多轮交互执行不稳定。具体而言,DataMind采用了以下四项关键技术:1)细粒度任务分类体系与递归式由易到难的任务组合机制,以提升合成查询的多样性与难度;2)融合知识增强的轨迹采样策略,并结合基于模型和基于规则的过滤方法;3)动态可调的训练目标,融合监督微调(SFT)与强化学习(RL)损失;4)一种内存高效且稳定的基于代码的多轮交互执行框架。基于DataMind,我们构建了DataMind-12K——一个覆盖多个领域、任务类型和数据文件格式的高质量行为轨迹数据集,适用于数据解析任务。在DataMind-12K上训练得到的DataMind-14B,在多个数据分析基准测试中平均得分达到71.16%,创下当前最优表现,超越最强的专有基线模型DeepSeek-V3.1与GPT-5。我们的DataMind-7B也在所有开源模型中表现最佳,得分为68.10%。此外,我们将探索性实验中获得的一些实证见解融入分析研究,旨在为社区提供关于智能体训练的切实可行的指导。我们将向社区公开发布DataMind-12K以及DataMind-7B和DataMind-14B,以支持后续的研究工作。
-
- 图表
- 解决问题论文旨在解决当前开源数据解析智能体在处理多样化格式、大规模数据文件以及长周期多步骤推理任务时表现不佳的问题,同时应对现有方法过度依赖专有模型和提示工程的局限。这一问题随着自动化科学发现和Innovating AI愿景的发展变得愈发重要,但尚未被充分解决,具有较强的新颖性和现实需求。
- 关键思路提出DataMind,一种可扩展的数据合成与智能体训练框架,核心包括:细粒度任务分类与递归由易到难的任务组合机制、知识增强的轨迹采样与双重过滤策略、动态调整的SFT与RL联合训练目标,以及内存高效且稳定的基于代码的多轮交互执行框架。相比以往依赖黑箱模型或简单微调的方法,DataMind系统性地优化了数据生成、训练策略与执行稳定性,为构建通用型开源数据智能体提供了新范式。
- 其它亮点构建了高质量、跨领域、多文件格式的数据分析轨迹数据集DataMind-12K,并基于此训练出DataMind-7B和14B模型;在多个数据分析基准上,DataMind-14B以71.16%的平均得分超越DeepSeek-V3.1和GPT-5等最强专有模型,DataMind-7B也在开源模型中排名第一(68.10%);团队将发布DataMind-12K数据集及模型权重,推动社区研究;实验设计涵盖多维度评估,展示了从数据合成到训练再到稳定执行的完整闭环验证。
- 1. 'Large Language Models as Agents: A Survey' (2023) 2. 'AgentBench: Evaluating LLMs as Agents' (ICML 2024) 3. 'CRAG: Benchmarking Retrieval-Augmented Generation for Long-form Question Answering' (ACL 2024) 4. 'OpenAgents: Domain-Specialized Open-Source LLM Agents for Structured Data' (2024) 5. 'ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs' (2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流