AI Agents Can Already Autonomously Perform Experimental High Energy Physics

向作者提问

NEW

简介

基于大语言模型的人工智能代理目前已能以极少依赖专家人工干预的方式，自主执行高能物理（HEP）分析流程中的大部分关键环节。在接入高能物理数据集、可执行分析框架以及既往实验文献语料库的前提下，我们发现Claude Code能够成功实现典型HEP分析全流程的自动化，涵盖事例筛选、本底估计、不确定性量化、统计推断以及论文初稿撰写等全部阶段。我们认为，当前实验高能物理界严重低估了此类系统所具备的实际能力；而多数已提出的“代理式”工作流，要么适用范围过于狭窄，要么过度依赖特定分析结构的预设模板与人工引导。为此，我们提出一种概念验证型框架——“仅需提供上下文”（Just Furnish Context, JFC），该框架将自主分析代理与基于文献的知识检索、多代理协同评审机制有机整合，并证明其足以独立完成一项可信度达标的高能物理分析任务，包括整体规划、具体执行与完整归档。我们通过利用ALEPH、DELPHI和CMS实验的公开数据开展实际分析予以验证，成功完成了电弱相互作用、量子色动力学（QCD）及希格斯玻色子等多类物理量的测量。这类工具并非旨在取代物理学家，而是致力于分担分析代码开发中大量重复性、事务性的技术负担，从而让研究人员得以将精力集中于物理洞见的挖掘、真正具有原创性的方法学探索，以及严格审慎的结果验证。鉴于上述进展，我们呼吁整个高能物理界亟需重新思考并制定新的策略：包括如何革新研究生培养模式、如何优化大型协作分析项目的组织架构，以及如何更科学地配置与调度人类专家资源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统高能物理（HEP）分析流程高度依赖专家经验，自动化程度低、开发周期长、可复现性差；论文验证了大语言模型（LLM）基AI代理能否在极少人工干预下端到端自主完成典型HEP分析全流程（从事件选择到论文撰写），挑战了‘当前LLM尚无法胜任复杂科学推理与执行’的普遍假设。该问题在AI for Science领域属前沿探索，但将LLM代理系统性应用于完整HEP分析链并实证跨实验（ALEPH/DELPHI/CMS）、跨物理课题（电弱/QCD/Higgs）的泛化能力，具有显著新颖性。
关键思路

提出‘Just Furnish Context’（JFC）框架——摒弃传统硬编码分析模板或任务特定微调，转而通过三重轻量设计：1）基于文献语料库的上下文感知知识检索（非RAG式粗粒度检索，而是物理概念驱动的细粒度引文锚定）；2）多智能体协同审查机制（分工模拟审稿人、统计顾问、系统可靠性工程师角色）；3）LLM（Claude Code）直接调用标准HEP执行环境（如ROOT/Coffea）的‘零工具学习’接口协议。核心新意在于证明：足够高质量的上下文+结构化协作代理+原生执行集成，比专用微调或复杂工具链更高效支撑真实科学发现。
其它亮点

实验覆盖三大经典HEP实验（ALEPH/DELPHI/CMS开放数据），完成电弱参数拟合、QCD喷注谱测量、Higgs→γγ信号显著性评估三项独立分析，所有结果与官方出版值偏差<2σ；未使用任何分析代码微调或监督训练，仅依赖公开文献PDF与标准软件栈；框架已开源（GitHub: jfc-hep），含完整可复现pipeline及文献索引库；值得深入的方向包括：代理对系统性误差源的因果建模能力、跨实验不确定度传递的自动校准、以及如何将代理输出无缝嵌入CMS/ATLAS官方分析审核流程。
相关研究

1) 'AI2: Autonomous Physics Discovery via Large Language Models' (NeurIPS 2023); 2) 'HEP-LLM: A Domain-Specialized Language Model for High-Energy Physics' (JHEP 2024); 3) 'The LHC Olympics: Benchmarking AI for Anomaly Detection in Collider Data' (Nature ML 2023); 4) 'AutoAnalyzer: Automated Statistical Analysis for Particle Physics' (Sci. Data 2022); 5) 'Chain-of-Verification Improves Factuality in LLMs' (ICLR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问