ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

2025年06月10日
  • 简介
    人工智能系统在解决诸如包裹递送路线、机组人员调度、工厂生产计划和电力网格平衡等领域的复杂优化问题时,表现如何?我们推出了 ALE-Bench,这是一个用于评估人工智能系统在基于评分的算法编程竞赛中的新基准。ALE-Bench 基于 AtCoder 启发式竞赛中的真实任务,提供了计算上极为困难且目前没有已知精确解的优化问题。与短时间、通过/失败型的编码基准不同,ALE-Bench 鼓励在长时间范围内对解决方案进行迭代改进。我们的软件框架支持交互式代理架构,能够利用测试运行反馈和可视化功能。我们对前沿的语言模型进行了评估,发现尽管它们在某些特定问题上表现出高性能,但在跨问题的一致性以及长时间范围的问题解决能力方面,与人类相比仍存在显著差距。这突显了这一基准的重要性,它将有助于推动未来的人工智能发展。
  • 解决问题
    该论文试图评估AI系统在解决硬优化问题(如包裹递送路由、机组调度、工厂生产计划和电网平衡)中的表现。这是一个新问题,因为它引入了ALE-Bench这一新的基准测试框架,专注于长期迭代优化而非短期通过/失败的代码挑战。
  • 关键思路
    关键思路是设计一个基于真实世界任务的优化问题基准(ALE-Bench),并允许AI系统通过长时间的反馈和迭代改进来解决问题。相比现有研究,该方法更注重长时优化能力和对复杂问题的一致性表现,而不是单一问题上的高分。
  • 其它亮点
    论文的主要亮点包括:1) 引入了基于AtCoder Heuristic Contest的真实任务数据集;2) 提供了一个支持交互式架构和可视化工具的软件框架;3) 对前沿大语言模型进行了详细评估,揭示了其在特定问题上的优势及跨问题一致性上的不足;4) 开源了ALE-Bench框架,为未来研究提供了平台。值得深入研究的方向包括提高AI系统的长期规划能力以及增强其在不同问题间的迁移学习能力。
  • 相关研究
    相关研究包括:1) Google DeepMind的AlphaCode项目,专注于短时间内的编程竞赛表现;2) Facebook的CodeGen系列研究,探索生成代码的能力;3) 近期关于强化学习与组合优化结合的研究,例如《Reinforcement Learning for Combinatorial Optimization Problems》;4) 针对具体领域(如物流或电力系统)的优化算法研究,如《Deep Reinforcement Learning for Dynamic Vehicle Routing Problems》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论