NEW

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Weixun Wang ,

XiaoXiao Xu ,

Wanhe An ,

Fangwen Dai ,

Wei Gao ,

Yancheng He ,

Ju Huang ,

Qiang Ji ,

Hanqi Jin ,

Xiaoyang Li ,

Yang Li ,

Zhongwen Li ,

Shirong Lin ,

Jiashun Liu ,

Zenan Liu ,

Tao Luo ,

Dilxat Muhtar ,

Yuanbin Qu ,

Jiaqiang Shi ,

Qinghui Sun ,

Yingshui Tan ,

Hao Tang ,

Runze Wang ,

Yi Wang ,

Zhaoguo Wang ,

Yanan Wu ,

Shaopan Xiong ,

Binchen Xu ,

Xander Xu ,

Yuchi Xu ,

Qipeng Zhang ,

Xixia Zhang ,

Haizhou Zhao ,

Jie Zhao ,

Shuaibing Zhao ,

Baihui Zheng ,

Jianhui Zheng ,

Suhang Zheng ,

Yanni Zhu ,

Mengze Cai ,

Kerui Cao ,

Xitong Chen ,

Yue Dai ,

Lifan Du ,

Tao Feng ,

Tao He ,

Jin Hu ,

Yijie Hu ,

Ziyu Jiang ,

Cheng Li ,

Xiang Li ,

Jing Liang ,

Chonghuan Liu ,

ZhenDong Liu ,

Haodong Mi ,

Yanhu Mo ,

Junjia Ni ,

Shixin Pei ,

Jingyu Shen ,

XiaoShuai Song ,

Cecilia Wang ,

Chaofan Wang ,

Kangyu Wang ,

Pei Wang ,

Tao Wang ,

Wei Wang ,

Ke Xiao ,

Mingyu Xu ,

Tiange Xu ,

Nan Ya ,

Siran Yang ,

Jianan Ye ,

Yaxing Zang ,

Duo Zhang ,

Junbo Zhang ,

Boren Zheng ,

Wanxi Deng ,

Ling Pan ,

Lin Qu ,

Wenbo Su ,

Jiamang Wang ,

Wei Wang ,

Hu Wei ,

Minggang Wu ,

Cheng Yu ,

Bing Zhao ,

Zhicheng Zheng ,

Bo Zheng

热度 23

2025年12月31日

简介

智能体化构建要求大语言模型通过采取行动、观察结果并不断迭代优化产物，在真实世界环境中进行多轮交互操作。尽管这一方向至关重要，但开源社区至今仍缺乏一套系统化、端到端的生态体系来简化智能体的开发流程。本文提出了“智能体学习生态系统”（Agentic Learning Ecosystem，简称 ALE），这是一个为智能体大模型打造的基础架构，旨在优化其生产流程。ALE 包含三个核心组件：ROLL，一种用于权重优化的后训练框架；ROCK，一个用于生成交互轨迹的沙箱环境管理器；以及 iFlow CLI，一个支持高效上下文工程的智能体框架。我们同时发布了 ROME（ROME 即显然是一种智能体模型），这是一款基于 ALE 构建的开源智能体，经过超过一百万条轨迹数据的训练。我们的方法包括用于合成复杂行为的数据组合协议，以及一种新颖的策略优化算法——基于交互的策略对齐（Interaction-based Policy Alignment, IPA）。该算法以语义交互片段而非单个词元为单位分配信用，从而提升长周期训练的稳定性。在实验中，我们在结构化环境下对 ROME 进行了评估，并推出了 Terminal Bench Pro 基准测试集，该基准在规模和数据污染控制方面均有改进。ROME 在 SWE-bench Verified 和 Terminal Bench 等多个基准测试中均表现出色，充分验证了 ALE 基础架构的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前开源社区缺乏一个系统化、端到端的生态系统来支持基于大语言模型（LLM）的智能体在真实环境中进行多轮交互式开发的问题。尽管Agentic行为（即代理通过行动、观察和迭代优化持续完成任务）在现实应用中至关重要，但现有工具链碎片化，难以高效训练和评估此类智能体。这个问题尚未被充分解决，尤其在开源领域仍属新挑战。
关键思路

提出Agentic Learning Ecosystem（ALE），一个基础性基础设施，包含三个核心组件：ROLL用于模型权重的后训练优化，ROCK提供沙盒环境以生成高质量交互轨迹，iFlow CLI则支持高效的上下文工程与代理编排。关键创新在于引入Interaction-based Policy Alignment（IPA）算法，该算法基于语义交互块而非单个token分配信用，显著提升长视野任务中的训练稳定性。相比现有方法，IPA更贴近实际任务结构，提升了策略学习的可解释性和有效性。
其它亮点

发布了ROME——一个完全开源的agentic模型，基于ALE构建，并在超过一百万条轨迹上训练；设计了Terminal Bench Pro作为新型评测基准，具备更大规模和更好的数据污染控制；实验表明ROME在SWE-bench Verified和Terminal Bench等复杂任务上表现优异；所有组件均开源，极大促进社区复现与进一步研究；数据合成协议和IPA算法为未来长期交互智能体的研究提供了新方向。
相关研究

1. “SWE-bench: Evaluating Large Language Models for Software Engineering” 2. “AgentBoard: Benchmarking Agentic Systems across Long-Horizon Tasks” 3. “Reflexion: Language Agents with Verbal Reinforcement Learning” 4. “Voyager: An Open-Ended Embodied Agent with Large Language Models” 5. “AutoGPT: Autonomous Task Planning and Execution with LLMs”

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问