每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Scaling Agent Learning via Experience Synthesis
2025年11月05日
尽管强化学习(RL)能够通过交互实现自我提升,从而赋能大语言模型(LLM)智能体,但其实际应用仍面临诸多挑战,包括高昂的 rollout 成本、任务多样性有限、奖励信号不可靠以及基础设施复杂等问题,这些因素共同阻碍了可扩展经验数据的收集。为应对这些挑战,我们提出了 DreamGym,这是首个面向大规模经验合成的统一框架,旨在支持自主智能体进行高效的在线强化学习训练。DreamGym 不依赖昂贵的真实环境 rollout,而是将环境动态提炼为一种基于推理的经验模型,该模型通过逐步推理生成一致的状态转移和反馈信号,从而实现可扩展的智能体 rollout 数据收集。为了提升状态转移的稳定性和质量,DreamGym 利用一个经验回放缓冲区,该缓冲区以离线真实世界数据初始化,并持续融入新的交互数据,主动支持智能体的训练过程。为了促进知识获取,DreamGym 能够自适应地生成新的任务,以挑战当前智能体的策略,从而实现更有效的在线课程学习。在多种不同环境和智能体架构上的实验表明,DreamGym 在完全合成的场景以及从仿真到现实的迁移场景中均显著提升了强化学习的训练效果。在 WebArena 等原本不适合强化学习的任务上,DreamGym 的表现超过所有基线方法30%以上;而在适合强化学习但成本高昂的场景中,仅使用合成交互即可达到与 GRPO 和 PPO 相当的性能。当将在纯合成经验上训练出的策略迁移到真实环境的强化学习中时,DreamGym 在大幅减少真实交互次数的同时,仍能带来显著的额外性能提升,为通用型强化学习提供了一种可扩展的预热启动策略。
626
热度
许愿开讲
PDF
解读
Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning
2025年10月27日
大型语言模型(LLM)被广泛用作评判者来评估回复质量,为人工评估提供了一种可扩展的替代方案。然而,大多数LLM评判者仅依赖于基于文本的内在推理,这限制了它们验证复杂约束或进行精确计算的能力。受工具集成推理(TIR)在众多任务中取得成功的启发,我们提出了TIR-Judge——一种端到端的强化学习框架,用于训练集成了代码执行器以实现精确评估的LLM评判模型。TIR-Judge建立在三个原则之上:(i)在可验证与不可验证领域进行多样化训练,(ii)支持灵活的评判格式(逐点式、成对式、列表式),以及(iii)通过迭代强化学习直接从初始模型启动训练,无需蒸馏过程。在七个公开基准测试中,Tir-Judge的性能优于强大的基于推理的评判模型,最高提升达6.4%(逐点式)和7.7%(成对式),并且尽管仅有80亿参数,其列表式评判表现仍可媲美Claude-Opus-4。尤为值得注意的是,TIR-Judge-Zero完全不使用蒸馏得到的评判轨迹进行训练,却能达到与蒸馏版本相当的性能,这表明借助工具增强的评判模型能够通过迭代强化学习实现自我演化。
356
热度
许愿开讲
PDF
解读
Mathematical exploration and discovery at scale
2025年11月03日
AlphaEvolve 是一种通用的进化式编程智能体,它将大语言模型的生成能力与自动化评估相结合,置于一个迭代进化的框架之中,能够提出、测试并逐步优化针对复杂科学与实际问题的算法解决方案。本文展示了 AlphaEvolve 作为一种自主发现全新数学构造、推动对长期未解难题理解的工具。为展示其广泛适用性,我们选取了涵盖数学分析、组合数学、几何学和数论等领域的 67 个问题进行实验。该系统在大多数情况下重新发现了目前已知的最佳解,并在多个问题上找到了更优的解法。在某些情况下,AlphaEvolve 还能将有限输入值下的结果推广为适用于所有输入值的通用公式。此外,我们还能将这一方法与 Deep Think 和 AlphaProof 相结合,构建一个更广泛的框架,其中额外的证明辅助工具和推理系统可提供自动化的定理证明与更深入的数学洞见。 这些结果表明,由大语言模型引导的进化搜索能够自主发现补充人类直觉的数学构造,在某些情况下甚至达到或超越现有最佳成果,凸显了数学家与人工智能系统之间实现全新互动方式的巨大潜力。我们提出 AlphaEvolve 作为一种强大的新型数学发现工具,能够在大规模复杂优化问题中探索广阔的搜索空间,通常还能显著降低前期准备和计算时间的需求。
345
热度
许愿开讲
PDF
解读
From Memorization to Reasoning in the Spectrum of Loss Curvature
2025年10月28日
我们刻画了记忆化在Transformer模型中的表征方式,并表明通过基于损失景观曲率的分解方法,可以在语言模型(LMs)和视觉Transformer(ViTs)的权重中将记忆化成分分离出来。这一发现基于先前的理论与实证研究,这些研究表明,被记忆的训练样本所对应的曲率明显比未被记忆的样本更尖锐,因此按权重分量从高到低排列曲率,即可在无需显式标签的情况下揭示出这种差异。这一观察启发了一种权重编辑方法,该方法在抑制非目标记忆内容复述方面,效果显著优于近期提出的一种遗忘学习方法(BalancedSubnet),同时还能保持更低的困惑度。由于曲率基底对模型权重中的共享结构具有自然的解释意义,我们系统分析了该编辑方法对语言模型下游任务的影响,发现事实检索和算术任务的表现受到特别且持续的负面影响,而开放式事实检索和一般性逻辑推理能力则得以保留。我们认为,这些任务高度依赖于权重空间中特定的专业化方向,而非通用机制,无论单个数据点是否被明确记忆。我们通过展示任务数据在被编辑掉的低曲率分量上的激活强度与其任务性能下降之间的对应关系,为上述观点提供了支持。本研究深化了人们对神经网络中记忆化现象的理解,为实际去除记忆化提供了可行路径,同时也为数学计算和事实检索等任务中存在特异性强、用途狭窄的内部结构提供了证据。
232
热度
许愿开讲
PDF
解读
Kosmos: An AI Scientist for Autonomous Discovery
2025年11月04日
以数据驱动的科学发现需要经历文献检索、提出假设和数据分析的反复循环过程。尽管在能够自动化开展科学研究的人工智能代理方面已取得显著进展,但现有各类系统均受限于其在失去连贯性之前所能执行的操作数量,从而限制了它们发现成果的深度。本文提出了Kosmos,一种实现数据驱动科学发现自动化的AI科学家。给定一个开放性的研究目标和一个数据集后,Kosmos可连续运行长达12小时,执行多轮并行的数据分析、文献检索和假设生成,最终将发现成果整合成科学报告。与以往系统不同,Kosmos采用一种结构化的世界模型,使数据分析代理和文献检索代理之间能够共享信息。该世界模型使Kosmos能够在超过200次的代理推演过程中始终保持连贯性,每次运行平均共执行约42,000行代码,并阅读1,500篇论文。Kosmos报告中的每一项陈述均通过代码或原始文献加以引用,确保其推理过程可追溯。独立科学家评估发现,Kosmos报告中79.4%的陈述是准确的;合作研究人员表示,单次包含20个循环的Kosmos运行平均相当于他们自身六个月的研究工作量。此外,合作者指出,Kosmos产生的有价值科学发现的数量随运行循环次数呈线性增长(实验最多验证至20个循环)。我们重点介绍了Kosmos在代谢组学、材料科学、神经科学和统计遗传学等领域取得的七项科学发现:其中三项独立重现了Kosmos运行时并未接触过的预印本或未发表手稿中的研究成果,另外四项则为科学文献作出了全新的贡献。
136
热度
许愿开讲
PDF
解读
On the Impossibility of Retrain Equivalence in Machine Unlearning
2025年10月18日
机器遗忘旨在有选择性地消除特定训练数据对模型输出的“影响”。理想目标是实现重训练等效性——即模型的行为与仅在保留数据上从头开始训练所得模型完全相同。这一目标最初是针对采用独立同分布数据批次训练的模型提出的,而现代训练流程往往涉及多阶段训练,每一阶段具有不同的数据分布和优化目标,例如大语言模型(LLM)为提升对齐性、推理能力等进行的微调。我们的研究通过理论分析与实验表明,转向多阶段训练为机器遗忘带来了根本性的障碍。理论指出,局部遗忘方法——即仅利用在遗忘集上计算出的梯度的方法——其效果具有路径依赖性。也就是说,模型在遗忘过程中的行为受到其学习过程中各训练阶段顺序的影响,这使得不考虑训练路径的算法无法普遍实现重训练等效性。我们在Llama和Qwen系列模型(10亿至140亿参数)上,使用梯度上升、NPO和SimNPO等局部遗忘算法,在大语言模型的后训练阶段实证验证了这一现象。通过不同顺序执行相同训练阶段所得到的微调模型,在遗忘过程中表现出显著不同的行为,其在GSM8K任务上的准确率下降幅度因训练路径不同而差异超过20%。我们还观察到,某些训练路径始终会产生更难遗忘的模型。在遗忘过程中,概率质量是被压缩到改写表达还是转向其他概念,也取决于训练路径。这些结果一致表明,只要目标模型是分阶段训练得到的,重训练等效性对于局部遗忘算法而言就是一个定义不当的目标。在难以获取模型训练历史的实际场景中,本研究呼吁重新思考机器遗忘的定义及其应满足的理想特性。
129
热度
许愿开讲
PDF
解读
Executable Code Actions Elicit Better LLM Agents
2024年02月01日
大型语言模型(LLM)代理具有广泛的能力,例如调用工具和控制机器人,显示出在应对现实世界挑战方面的巨大潜力。LLM代理通常被提示生成JSON或以预定义格式的文本来执行操作,这通常受到受限制的行动空间(例如,预定义工具的范围)和受限制的灵活性(例如,无法组合多个工具)的限制。本文提出使用可执行的Python代码将LLM代理的行动整合到一个统一的行动空间(CodeAct)中。CodeAct与Python解释器集成,可以执行代码操作,并通过多轮交互动态修改先前的操作或发出新的操作以响应新的观察结果。我们对17个LLM在API-Bank和一个新的策划基准上进行了广泛的分析,结果表明CodeAct的表现优于广泛使用的替代方案(成功率高达20%)。CodeAct的良好表现激励我们构建一个开源的LLM代理,它通过执行可解释的代码与环境进行交互,并使用自然语言与用户进行协作。为此,我们收集了一个指令调整数据集CodeActInstruct,其中包括使用CodeAct进行的7k多轮交互。我们展示它可以与现有数据一起用于在面向代理的任务中改进模型,而不会影响其通用能力。CodeActAgent从Llama2和Mistral进行了微调,集成了Python解释器,并具有独特的定制功能,可以使用现有库执行复杂任务(例如,模型训练)并自主进行调试。
106
热度
许愿开讲
PDF
解读
Spatially anchored Tactile Awareness for Robust Dexterous Manipulation
2025年10月16日
灵巧操作需要精确的几何推理,然而现有的视觉-触觉学习方法在处理亚毫米级精度的任务时表现不佳,而这类任务对传统的基于模型的方法而言却是常规操作。我们发现了一个关键局限:尽管触觉传感器能够提供丰富的接触信息,但当前的学习框架未能有效利用触觉信号的感知丰富性及其与手部运动学之间的空间关系。我们认为,理想的触觉表征应将接触测量结果明确地锚定在一个稳定的参考坐标系中,同时保留详细的感官信息,从而使策略不仅能检测是否发生接触,还能在手部坐标系中精确推断物体的几何形状。为此,我们提出了SaTA(面向灵巧操作的空间锚定触觉感知),这是一种端到端的策略框架,通过正向运动学将触觉特征显式地锚定于手部的运动学坐标系中,从而在无需物体模型或显式位姿估计的情况下实现准确的几何推理。我们的核心洞见在于:空间上锚定的触觉表征使策略不仅能检测接触的发生,还能在手部坐标系中精确推断物体的几何结构。我们在多个具有挑战性的灵巧操作任务上验证了SaTA的有效性,包括自由空间中的双手USB-C插接任务(要求亚毫米级的对准精度)、需要精确螺纹啮合与旋转控制的灯泡安装任务,以及需要精细力调节和角度精度的卡片滑动任务。由于这些任务对精度要求极高,因此对基于学习的方法构成了重大挑战。在多项基准测试中,SaTA显著优于强大的视觉-触觉基线方法,成功率最高提升达30个百分点,任务完成时间平均缩短27%。
97
热度
许愿开讲
PDF
解读