- 简介游戏开发处于创意设计与复杂软件工程的交汇点,要求游戏引擎、实时循环机制以及跨多个文件的高度耦合状态之间实现协同运作。尽管大型语言模型(LLMs)和代码智能体目前已能轻松完成孤立的编程任务,但当被要求依据高层级设计规范从零构建一款可完整运行的游戏时,它们却屡屡受挫——往往因跨文件不一致、场景连接断裂以及逻辑自相矛盾等问题而彻底失效。为弥合这一关键鸿沟,我们推出了 OpenGame:首个专为端到端网页游戏创作而设计的开源智能体框架。其核心是“游戏技能”(Game Skill),一种可复用、持续演进的能力模块,由两部分构成:一是“模板技能”(Template Skill),它通过经验积累不断扩充项目骨架模板库;二是“调试技能”(Debug Skill),它维护一套动态更新、经实证验证的修复协议。二者协同作用,使智能体不仅能快速搭建稳健的架构基础,更能系统性地定位并修复集成层面的错误,而非仅修补孤立的语法层面缺陷。驱动该框架的是 GameCoder-27B——一款专精于游戏引擎掌握的代码大语言模型,其能力通过三阶段训练流程持续强化:持续预训练(continual pre-training)、监督微调(supervised fine-tuning)以及以实际执行效果为反馈信号的强化学习(execution-grounded reinforcement learning)。鉴于验证交互式可玩性本质上远比检查静态代码复杂得多,我们进一步提出了 OpenGame-Bench:一个面向智能体生成游戏的评估流水线。该流水线依托无头浏览器执行(headless browser execution)与视觉语言模型(VLM)评判,从“构建健康度”(Build Health)、“视觉可用性”(Visual Usability)和“意图对齐度”(Intent Alignment)三个维度对生成结果进行综合评分。在涵盖150个多样化游戏需求提示的基准测试中,OpenGame 刷新了当前最佳性能纪录。我们期望 OpenGame 能推动代码智能体突破离散式软件工程问题的局限,真正迈向构建复杂、交互式的真实世界应用。本框架将完全开源。
-
- 图表
- 解决问题现有大语言模型和代码智能体虽能解决孤立编程任务,但在端到端生成可运行、跨文件一致、逻辑连贯的完整网页游戏时表现脆弱——常因场景连接错误、状态耦合失效、构建链断裂而失败。该问题本质是‘交互式系统级合成’挑战,非单纯代码生成问题,此前尚无专为游戏开发全生命周期设计的开源智能体框架。
- 关键思路提出OpenGame:首个面向端到端网页游戏构建的开源智能体框架;核心创新在于双技能协同机制——Template Skill(基于经验持续演化的项目骨架库)实现健壮架构初始化,Debug Skill(维护可执行验证的修复协议库)实现跨文件集成错误的系统性诊断与修复;并配套训练专用代码大模型GameCoder-27B(经游戏引擎语料持续预训练、监督微调及执行反馈强化学习三阶段优化),突破通用代码模型在实时交互逻辑建模上的局限。
- 其它亮点引入OpenGame-Bench评估体系,首次将可玩性(playability)作为核心指标,通过无头浏览器自动构建+执行+截图,并结合视觉语言模型(VLM)进行多维评判(Build Health/Visual Usability/Intent Alignment);在150个多样化游戏提示上全面评测;全部代码、模型权重、基准数据集及评估工具链将完全开源;未来方向包括:跨引擎泛化(Unity/WebGPU)、玩家行为驱动的动态需求演化、以及多智能体协作游戏开发范式。
- CodeT5+(2023)、StarCoder2(2024)、SWE-agent(2023)、DevIn(2024)、GameLLM(ACL 2024 Workshop)、GENIE: Game Environment as a Language Model Interface(NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流