Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

2025年10月27日
  • 简介
    我们提出Game-TARS,这是一种通用型游戏智能体,通过统一且可扩展的动作空间进行训练,该动作空间基于与人类对齐的原生键盘和鼠标输入。与依赖API或图形用户界面(GUI)的方法不同,这一范式支持在操作系统、网页和模拟游戏等异构领域中进行大规模持续预训练。Game-TARS在超过5000亿个token的多样化轨迹和多模态数据上进行了预训练。关键技术包括一种衰减式持续损失函数,用于减少因果混淆,以及一种高效的“稀疏思维”(Sparse-Thinking)策略,在推理深度与推理成本之间实现平衡。实验表明,Game-TARS在开放世界《我的世界》(Minecraft)任务上的成功率比此前最先进的模型高出约两倍,在未见过的网页3D游戏中表现接近新手人类玩家的通用能力,并在第一人称射击游戏(FPS)基准测试中优于GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet。训练时和测试时的规模扩展结果证实,当统一动作空间扩展到跨游戏和多模态数据时,其性能增益仍能持续。我们的研究结果表明,简单且可扩展的动作表征,结合大规模预训练,为构建具备广泛计算机使用能力的通用型智能体提供了一条极具前景的发展路径。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决通用型游戏智能体在多样化环境(如操作系统、网页、模拟游戏等)中缺乏统一且可扩展的动作空间表示的问题。传统方法依赖API或GUI特定接口,限制了跨域持续预训练的能力。该问题在当前研究中尚未被充分解决,尤其是在实现真正广泛计算机使用能力的通用智能体方面,仍是一个较新的挑战。
  • 关键思路
    提出Game-TARS,采用基于人类对齐的原生键盘鼠标输入的统一、可扩展动作空间,支持大规模持续预训练。这一范式摆脱了对特定API或GUI解析的依赖,使得模型可以在异构环境中进行跨平台学习。关键创新包括解耦的持续衰减损失以减少因果混淆,以及Sparse-Thinking策略,在推理深度与计算成本之间取得平衡。相比现有工作,这是首次将原生人机交互动作作为空间基础用于通用游戏代理的大规模训练。
  • 其它亮点
    Game-TARS在超过5000亿token的多模态轨迹数据上进行了预训练;在开放世界Minecraft任务中成功率是先前SOTA模型的约2倍;在未见过的Web 3D游戏中表现接近新手人类水平;在FPS基准上超越GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet;实验验证了训练时和测试时的可扩展性,证明该统一动作空间能有效泛化到跨游戏和多模态场景;目前尚未提及代码是否开源,但其数据规模和实验设计为未来通用代理研究提供了重要方向。
  • 相关研究
    1. 'Voyager: An Open-Ended Embodied Agent with Large Language Models' (2023) 2. 'Mind2Game: Zero-Shot Generalization for 3D Games via Large Vision Models' (2024) 3. 'Generative Agents: Interactive Simulacra of Human Behavior' (2023) 4. 'Scaling Language Models for Game Playing' by DeepMind (2024) 5. 'Open-World Reasoning and Planning with Large Language Models in Minecraft' (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问