Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

2025年12月31日
  • 简介
    智能体化构建要求大语言模型通过采取行动、观察结果并不断迭代优化产物,在真实世界环境中进行多轮交互操作。尽管这一方向至关重要,但开源社区至今仍缺乏一套系统化、端到端的生态体系来简化智能体的开发流程。本文提出了“智能体学习生态系统”(Agentic Learning Ecosystem,简称 ALE),这是一个为智能体大模型打造的基础架构,旨在优化其生产流程。ALE 包含三个核心组件:ROLL,一种用于权重优化的后训练框架;ROCK,一个用于生成交互轨迹的沙箱环境管理器;以及 iFlow CLI,一个支持高效上下文工程的智能体框架。我们同时发布了 ROME(ROME 即显然是一种智能体模型),这是一款基于 ALE 构建的开源智能体,经过超过一百万条轨迹数据的训练。我们的方法包括用于合成复杂行为的数据组合协议,以及一种新颖的策略优化算法——基于交互的策略对齐(Interaction-based Policy Alignment, IPA)。该算法以语义交互片段而非单个词元为单位分配信用,从而提升长周期训练的稳定性。在实验中,我们在结构化环境下对 ROME 进行了评估,并推出了 Terminal Bench Pro 基准测试集,该基准在规模和数据污染控制方面均有改进。ROME 在 SWE-bench Verified 和 Terminal Bench 等多个基准测试中均表现出色,充分验证了 ALE 基础架构的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前开源社区缺乏一个系统化、端到端的生态系统来支持基于大语言模型(LLM)的智能体在真实环境中进行多轮交互式开发的问题。尽管Agentic行为(即代理通过行动、观察和迭代优化持续完成任务)在现实应用中至关重要,但现有工具链碎片化,难以高效训练和评估此类智能体。这个问题尚未被充分解决,尤其在开源领域仍属新挑战。
  • 关键思路
    提出Agentic Learning Ecosystem(ALE),一个基础性基础设施,包含三个核心组件:ROLL用于模型权重的后训练优化,ROCK提供沙盒环境以生成高质量交互轨迹,iFlow CLI则支持高效的上下文工程与代理编排。关键创新在于引入Interaction-based Policy Alignment(IPA)算法,该算法基于语义交互块而非单个token分配信用,显著提升长视野任务中的训练稳定性。相比现有方法,IPA更贴近实际任务结构,提升了策略学习的可解释性和有效性。
  • 其它亮点
    发布了ROME——一个完全开源的agentic模型,基于ALE构建,并在超过一百万条轨迹上训练;设计了Terminal Bench Pro作为新型评测基准,具备更大规模和更好的数据污染控制;实验表明ROME在SWE-bench Verified和Terminal Bench等复杂任务上表现优异;所有组件均开源,极大促进社区复现与进一步研究;数据合成协议和IPA算法为未来长期交互智能体的研究提供了新方向。
  • 相关研究
    1. “SWE-bench: Evaluating Large Language Models for Software Engineering” 2. “AgentBoard: Benchmarking Agentic Systems across Long-Horizon Tasks” 3. “Reflexion: Language Agents with Verbal Reinforcement Learning” 4. “Voyager: An Open-Ended Embodied Agent with Large Language Models” 5. “AutoGPT: Autonomous Task Planning and Execution with LLMs”
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问