Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

向作者提问

NEW

简介

我们推出了Lumine，这是首个用于开发通才型智能体的开源方案，该智能体能够在复杂3D开放世界环境中实时完成持续数小时的复杂任务。Lumine采用类似人类的交互范式，通过视觉-语言模型将感知、推理与动作端到端地统一起来。它以每秒5帧的速度处理原始像素，生成精确的每秒30次键盘和鼠标操作，并仅在必要时自适应地触发推理过程。Lumine在《原神》中进行训练，成功以接近人类效率的水平完成了长达五小时的蒙德主线剧情，并能根据自然语言指令，在3D开放世界探索与2D图形用户界面操作中执行涵盖收集、战斗、解谜以及与NPC互动在内的广泛任务。除了在训练领域内的出色表现，Lumine还展现出强大的零样本跨游戏泛化能力。无需任何微调，它即可在《鸣潮》中完成100分钟的任务，并完整通关《崩坏：星穹铁道》长达五小时的第一章内容。这些令人鼓舞的结果凸显了Lumine在不同虚拟世界及交互机制中的有效性，标志着我们在构建适用于开放环境的通用智能体道路上迈出了坚实的一步。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决在复杂3D开放世界环境中构建能够执行长时间、多样化任务的通用智能体的问题。这类环境要求智能体具备感知、推理与动作的统一能力，并能实时处理视觉输入、理解自然语言指令并执行精细控制。此前，缺乏能够在真实游戏环境中端到端完成数小时复杂任务且具备跨域泛化能力的开放方案。
关键思路

Lumine采用类人交互范式，基于视觉-语言模型（VLM）实现感知、推理与动作的端到端统一。其关键创新在于以5Hz处理原始像素输入，生成30Hz的键盘鼠标动作，并引入自适应推理机制——仅在必要时激活高成本推理过程，从而在效率与性能之间取得平衡。该方法实现了从自然语言指令到低层级控制信号的直接映射。
其它亮点

Lumine在《原神》中成功完成长达五小时的蒙德主线剧情，表现接近人类水平；支持多种任务类型，包括探索、战斗、解谜、NPC交互和2D GUI操作；展现出强大的零样本跨游戏泛化能力，在未经微调的情况下完成《鸣潮》100分钟任务和《崩坏：星穹铁道》首章全流程。实验设计覆盖多个商业级3D游戏，验证了系统在不同世界和交互动态下的有效性。目前尚未提及代码是否开源。
相关研究

1. Voyager: An Open-Ended Embodied Agent with Large Language Models (2023) 2. In-Context Reinforcement Learning with Neural Contexts (ICLR 2023) 3. LLM+P: Empowering Large Language Models with Optimal Planning Proficiency (2023) 4. Visual Instruction Tuning (NeurIPS 2023) 5. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robot Control (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问