- 简介当前测试时扩展的范式依赖于在生成响应之前产生较长的推理轨迹(即“思考”更多)。在需要交互的代理问题中,这可以通过在实际行动之前生成思考轨迹来实现。然而,这一过程不允许代理从环境中获取新信息,也无法随时间调整其行为。在本文中,我们提出扩展测试时的交互能力,这是一种尚未被充分利用的测试时扩展维度,通过增加代理的交互视野,使其能够在单次运行中执行诸如探索、回溯和动态重新规划等复杂行为。为了展示这一扩展维度的潜力,我们在网络代理领域进行了研究。我们首先证明,即使是在没有任何训练的情况下,仅通过提示驱动的交互扩展也能显著提升网络基准任务的成功率。基于这一发现,我们引入了TTI(测试时交互),这是一种基于课程学习的在线强化学习(RL)方法,通过自适应调整代理的运行长度对其进行训练。使用Gemma 3 12B模型,TTI生成了在WebVoyager和WebArena基准上表现最优的开源、开放数据网络代理。此外,我们进一步展示了TTI能够使代理自适应地平衡探索与利用。我们的结果表明,交互扩展是一种强大且与每步计算扩展互补的维度,为训练自适应代理提供了新的方向。
- 解决问题该论文试图解决如何通过增加交互次数来提升智能体在动态环境中的表现,尤其是在需要实时决策和信息获取的任务中(如Web导航)。这是一个相对较新的问题,聚焦于测试时间的交互维度,而非传统的推理步骤或模型规模扩展。
- 关键思路论文提出了一种名为TTI(Test-Time Interaction)的方法,通过在线强化学习动态调整智能体的rollout长度,从而实现更长的交互时间。这种方法不仅允许智能体探索、回溯和重新规划,还能够自适应地平衡探索与利用。相比传统方法仅依赖生成推理轨迹,TTI强调了与环境的真实交互作为性能提升的关键。
- 其它亮点1. TTI方法在WebVoyager和WebArena基准上达到了开源数据和模型中的SOTA结果;2. 实验表明,即使没有额外训练,仅通过提示增强交互也能显著改善任务成功率;3. 使用Gemma 3 12B模型进行实验,并证明了其在复杂任务中的有效性;4. 代码已开源,为后续研究提供了良好的基础;5. 提出了未来研究方向,例如进一步优化交互策略和结合更大规模模型的可能性。
- 近期相关研究包括:1. 'Scaling Laws for Autoregressive Generative Modeling' 探讨了推理过程中生成步数的影响;2. 'Reinforcement Learning with Long Horizon Planning' 研究了规划深度对RL性能的作用;3. 'Interactive Decision Making in Dynamic Environments' 提出了一些初步的交互式决策方法;4. 'Curriculum Learning for Reinforcement Learning Domains' 强调了课程学习在RL中的重要性。这些工作主要集中在推理效率或静态环境下的表现,而本论文则将重点放在动态交互上。
沙发等你来抢
去评论
评论
沙发等你来抢