AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

向作者提问

NEW

简介

数据科学在众多领域中发挥着关键作用，能够将复杂数据转化为可操作的洞见。近期，大语言模型（LLMs）与人工智能（AI）智能体的快速发展，已显著实现了数据科学工作流程的自动化。然而，目前尚不明确AI智能体在面向特定领域的数据科学任务中，究竟能在多大程度上媲美人类专家的表现；也不清楚人类专业知识在哪些具体方面仍具有不可替代的优势。为此，我们推出了AgentDS——一个专门用于评估AI智能体以及人机协同模式在领域专属数据科学任务中表现的基准测试平台与竞赛体系。AgentDS涵盖六大行业，共设置17项挑战任务，涉及电子商务、食品生产、医疗健康、保险、制造业及零售银行业。我们组织了一场面向公众开放的竞赛，共有29支团队、80名参与者报名参加，从而得以系统性地对比人机协同方法与纯AI基线方案的实际效果。研究结果表明，当前的AI智能体在领域专属推理能力方面仍显薄弱：仅依赖AI的基线方案表现普遍接近甚至低于参赛者成绩的中位数，而表现最优的解决方案则无一例外均来自人机协同模式。这些发现挑战了“AI可实现数据科学全流程完全自动化”的流行观点，凸显了人类专业知识在数据科学实践中持续不可替代的重要价值，同时也为下一代AI的发展指明了方向。欢迎访问AgentDS官网：https://agentds.org/；开源数据集请参见：https://huggingface.co/datasets/lainmn/AgentDS。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估当前AI代理（尤其是LLM驱动的AI agents）在真实域特定数据科学任务中能否替代人类专家，或在多大程度上仍需人类协作；该问题直击‘AI是否可完全自动化数据科学’这一关键假设，是首个系统性、跨行业、面向人机协同能力的基准评测问题。
关键思路

提出AgentDS——一个包含17个真实产业场景挑战（覆盖电商、食品生产、医疗、保险、制造、零售银行六大领域）、支持AI-only与human-AI-collaboration双轨评测的开放基准与竞赛框架；其核心创新在于将数据科学能力解耦为‘技术执行’与‘领域推理’，通过人类专家参与设计任务、标注评判标准、组织公开竞赛，实现对‘领域语义理解’和‘决策可信性’等难以自动量化的维度进行实证评估。
其它亮点

开展首场开放国际竞赛，29支队伍、80名参与者（含数据科学家、ML工程师及跨学科从业者）参与；实验发现AI-only基线性能普遍位于参赛者中位数及以下，最强方案全部依赖人类主导的提示工程、特征解释、业务约束注入与结果校验；所有挑战数据集已开源（Hugging Face），平台与评测协议完全公开（agentds.org）；值得深入的方向包括：领域知识注入机制、可解释性驱动的AI agent架构、人类反馈的结构化建模（如‘领域校验层’）、面向数据科学工作流的专用agent记忆与规划范式。
相关研究

DASH (NeurIPS 2023, 'Data Science as a Service via LLM Orchestration'); Data-Copilot (ACL 2024, 'Interactive Code Generation for Tabular Data'); SciBench (ICLR 2024, 'Scientific Reasoning Benchmark for LLMs'); DS-Bench (KDD 2023, 'End-to-End Data Science Pipeline Benchmark'); PandasAgent Evaluation (arXiv:2310.06775, 'Limitations of LLMs in Pandas-based Data Wrangling')

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问