Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

2025年02月20日
  • 简介
    虽然大型语言模型(LLMs)在孤立的、短期任务中可以表现出令人印象深刻的能力,但在更长时间范围内它们往往无法保持连贯的表现。本文中,我们介绍了Vending-Bench,一个模拟环境,专门设计用于测试基于LLM的代理在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。代理必须平衡库存、下订单、设定价格并处理日常费用——这些任务各自都很简单,但总体上,在长时间跨度(每次运行超过2000万个标记)内,会考验LLM持续连贯决策的能力。我们的实验揭示了多个LLM性能的高度差异:Claude 3.5 Sonnet和o3-mini在大多数运行中都能很好地管理机器并获得利润,但所有模型都有运行脱轨的情况,要么是误解了交货时间表,要么是忘记了订单,或者是陷入难以恢复的离题“崩溃”循环。我们没有发现失败与模型上下文窗口满载点之间有明显的相关性,这表明这些故障并非源于内存限制。除了突出长时间范围内性能的高度差异外,Vending-Bench还测试了模型获取资本的能力,这是许多假设中的危险AI情景中的必要条件。我们希望这一基准测试可以帮助为更强AI系统的到来做好准备。
  • 图表
  • 解决问题
    该论文旨在评估大型语言模型(LLM)在长时间范围内维持连贯性能的能力,特别是通过模拟经营自动售货机这一长期业务场景来测试LLM的决策能力。这揭示了当前LLM在处理长时间、复杂任务时可能存在的问题。
  • 关键思路
    关键思路是设计一个名为Vending-Bench的模拟环境,让LLM代理在一个持续时间较长的任务中进行操作,如管理库存、下订单、定价和处理日常费用。这项研究的新颖之处在于它专注于测试LLM在长时间跨度上的表现,而非仅限于短期任务的表现,从而揭示出LLM在长时间运行中的不稳定性。
  • 其它亮点
    实验设计非常具有创新性,通过模拟真实的商业运营场景,对多个LLM进行了详细的性能对比。研究发现,即使是最先进的LLM也会出现因误解交货时间或忘记订单等问题导致的表现波动。此外,研究还指出这些失败并非由模型的上下文窗口限制引起,这为未来的研究提供了新的方向。值得注意的是,该研究还涉及到了获取资本的能力,这是许多假设中的危险AI场景的关键要素。作者已开源了部分代码,鼓励社区进一步探索。
  • 相关研究
    近期相关研究包括:1. 对LLM在不同任务中的长短期记忆能力的研究;2. 提高LLM在连续任务中稳定性的方法探索;3. 针对特定领域(如医疗、金融等)的LLM应用研究。相关的论文标题如《Long-term Memory for Large Language Models》、《Stability of LLMs in Continuous Tasks》、《Domain-specific Applications of LLMs》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论