Benchmarking World-Model Learning

向作者提问

NEW

简介

模型学习型智能体应当主动收集信息，以学习能够支持多种下游任务和推理的世界模型，例如预测未观测到的状态、估计行为的短期与长期后果、规划动作序列，以及检测环境动态的变化。当前用于学习和评估世界模型的方法偏离了这一目标：训练与评估通常以“下一帧预测”为核心，并在同一环境中通过奖励最大化来衡量成功与否。为此，我们提出了WorldTest——一种评估模型学习型智能体的新协议，该协议将无奖励的交互阶段与在另一个相关但不同的环境中的评分测试阶段分离开来。WorldTest具有开放性：模型需支持大量事先未知的不同任务；同时它对模型表征形式保持中立，从而允许跨方法进行比较。我们基于WorldTest构建了AutumnBench，这是一套包含43个交互式网格世界环境和129项任务的测试集，任务分为三类：被遮蔽帧的预测、规划以及对因果动态变化的预测。我们在AutumnBench上对比了517名人类参与者与三种前沿模型的表现。结果发现，人类的表现优于现有模型；而计算资源的扩展仅在部分环境中提升了性能，在其他环境中则未见改善。WorldTest提供了一种全新的评估范式——包括无奖励探索、衍生测试任务以及基于行为的评分机制——用以衡量智能体对环境动态的学习成果；而AutumnBench则揭示了当前世界模型学习领域仍存在巨大的提升空间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前的世界模型学习方法大多以下一帧预测或奖励最大化为目标，导致模型在支持多种下游任务（如状态推断、长期预测、规划和动态变化检测）方面能力有限。论文试图验证：是否可以通过一个与训练环境不同但相关的测试环境，在无奖励交互后评估模型对世界动态的通用理解能力。这是一个较新的问题，强调模型的泛化性和多任务支持能力，而非单一任务性能。
关键思路

提出WorldTest协议，将无奖励的探索阶段与在新环境中进行的多样化任务测试分离，实现对世界模型真正理解能力的评估。其核心创新在于‘奖励自由交互 + 跨环境迁移测试 + 多任务开放评估’，打破了传统依赖于即时预测或奖励信号的闭环，使评估更贴近真实智能体所需的能力。
其它亮点

构建了AutumnBench，包含43个交互式网格世界和129项任务，覆盖三类挑战：遮蔽帧预测、规划、因果动态变化预测；实验对比了517名人类参与者与三种前沿模型，发现人类显著优于现有模型，且计算规模提升并不总能带来性能增益；代码与基准已开源，为后续研究提供可复现平台；结果揭示当前世界模型存在巨大改进空间，尤其在跨环境迁移和抽象推理方面。
相关研究

1. Mastering Atari with Discrete World Models (2023) 2. DreamerV3: Mastering Diverse Domains through World Models (2023) 3. PlaNet: A Deep Dynamics Model for Planning in Reinforcement Learning (2019) 4. Representation Learning with Contrastive Predictive Coding (2018) 5. Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Environment (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问