- 简介代码大语言模型在编程任务中已展现出卓越的能力,然而当前的基准测试主要集中在单一模态上,而非视觉化游戏开发。大多数现有的与代码相关的基准测试仅评估语法正确性和执行准确性,忽略了可玩性、视觉美感和用户参与度等对实际部署至关重要的游戏特有指标。为弥补当前大语言模型在算法问题求解和竞赛编程方面的能力与实际游戏开发所需的综合要求之间的差距,我们提出了V-GameGym——一个包含2,219个高质量样本的综合性基准测试,这些样本涵盖从真实世界代码仓库中提取的100个主题聚类,并采用一种新颖的基于聚类的数据筛选方法,以确保数据集的多样性与结构完整性。此外,我们引入了一个多模态评估框架,结合自动化的、由大语言模型驱动的流水线,在完整的UI沙箱环境中实现可视化代码生成。我们的深入分析表明,V-GameGym有效弥合了代码生成准确性与实际游戏开发工作流程之间的鸿沟,为可视化编程和交互元素生成提供了可量化的质量评估指标。
-
- 图表
- 解决问题当前大型语言模型在编程任务中表现出色,但在视觉游戏开发这类多模态任务上的评估仍存在显著空白。现有基准主要关注代码语法正确性和执行准确性,缺乏对游戏可玩性、视觉美感和用户参与度等实际部署关键指标的衡量。论文试图解决如何系统评估LLM在真实世界视觉游戏开发中的综合能力这一较新的问题。
- 关键思路提出V-GameGym,一个包含2,219个高质量样本、覆盖100个主题簇的综合性基准,采用基于聚类的数据构建方法确保多样性和结构完整性;同时设计了一个多模态评估框架,结合自动化LLM驱动的视觉代码生成流水线与完整的UI沙箱环境,实现对交互式视觉程序的端到端评估。相比以往仅关注单模态代码正确性的研究,该工作首次将游戏开发的实际需求融入LLM评估体系。
- 其它亮点数据集来源于真实项目仓库,具备高真实性和实用性;实验设计涵盖自动化视觉渲染验证、功能完整性测试与用户体验模拟;评估流程引入沙箱执行环境以动态检验生成代码的运行效果;数据集和评估框架已开源,支持后续研究;值得深入的方向包括提升LLM对视觉布局的理解能力、增强跨模态一致性以及扩展至移动端或Web全栈游戏生成。
- 1. CodeContests: A Benchmark for Evaluating Large Language Models on Competitive Programming 2. HumanEval: Evaluating Coding Skills of Large Language Models 3. APPS: Automated Programming Progress Standard 4. MBPP: A Repository of Python Programming Problems from Real-world Settings 5. VisualPrompt: A Dataset for Vision-to-Code Generation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流