- 简介大型语言模型(LLM)代理正在重塑游戏行业,尤其是通过更智能且更符合人类偏好的游戏角色。然而,现有的游戏基准测试未能满足实际需求:它们缺乏对不同游戏类型中多种LLM能力的评估,缺少对复杂游戏玩法至关重要的代理模块的研究,以及用于将预训练的LLM对齐为游戏代理的微调数据集。为弥补这些不足,我们提出了**Orak**,这是一个基础基准测试框架,旨在训练和评估跨多种现实世界视频游戏的LLM代理。与现有基准不同,Orak包含12款涵盖所有主要类型的流行视频游戏,能够全面研究LLM能力和对复杂游戏场景至关重要的代理模块。为了支持对LLM的一致评估,我们引入了一个基于模型上下文协议(MCP)的即插即用接口,使LLM能够无缝连接到游戏中并操控代理模块。此外,我们提出了一种微调数据集,包含跨多种游戏类型的LLM游戏轨迹。Orak提供了一个全面的评估框架,涵盖了通用游戏得分排行榜、LLM对抗竞技场,以及对视觉输入状态、代理策略和微调效果的深入分析,为构建通用游戏代理奠定了基础。代码可在以下链接获取:https://github.com/krafton-ai/Orak。
- 图表
- 解决问题该论文试图解决如何训练和评估大型语言模型(LLM)在多样化视频游戏中的表现问题。目前的游戏基准测试无法全面评估LLM的多方面能力,尤其是在复杂游戏场景中所需的智能模块。这是一个新问题,因为随着LLM技术的发展,将其应用到游戏领域并进行系统化评估的需求逐渐显现。
- 关键思路论文提出了一种名为Orak的基础性基准测试框架,用于训练和评估LLM在12款跨多种游戏类型中的表现。与现有方法不同,Orak引入了基于Model Context Protocol (MCP) 的插件式接口,使LLM能够无缝连接游戏并与代理模块交互。此外,还提供了一个包含跨游戏类型的微调数据集,以帮助对预训练LLM进行优化。这种综合性的框架设计为构建通用游戏代理奠定了基础。
- 其它亮点论文设计了多样化的实验环境,涵盖所有主要游戏类型;提供了详细的评价指标,包括游戏得分排行榜、LLM对抗竞技场以及对视觉输入状态和代理策略的深入分析。研究团队还开源了代码(https://github.com/krafton-ai/Orak),这将有助于社区进一步探索和改进。未来值得研究的方向包括更复杂的代理行为建模和更大规模的数据集生成。
- 近期相关研究包括:1)《Emergent Tool Use From Multi-Agent Autocurricula》探讨了多智能体环境中工具使用的涌现行为;2)《Learning to Play with Intrinsically Motivated Self-Play》研究了内在动机驱动的自我博弈学习;3)《Benchmarking Generalization in Procedurally Generated Levels》提出了程序生成关卡中的泛化能力基准测试。这些工作共同推动了智能体在游戏领域的应用与发展。
沙发等你来抢
去评论
评论
沙发等你来抢