World Craft: Agentic Framework to Create Visualizable Worlds via Text

2026年01月14日
  • 简介
    大语言模型(LLMs)推动了生成式智能体模拟(例如“AI小镇”)的发展,从而构建出一个“动态世界”,在娱乐与科研领域均具有巨大价值。然而,对于非专业人士——尤其是缺乏编程能力的用户而言,自行定制一个可可视化呈现的环境仍十分困难。本文提出“World Craft”——一种基于智能体的世界构建框架,支持用户仅通过自然语言描述,即可生成可执行、可可视化的AI小镇环境。该框架包含两大核心模块:“World Scaffold”(世界骨架)与“World Guild”(世界工坊)。“World Scaffold”是一套结构清晰、简洁规范的标准体系,用于开发交互式游戏场景,为大语言模型高效定制可执行的AI小镇类环境提供坚实支撑;“World Guild”则是一个多智能体协同框架,能够逐步解析用户粗糙文本描述中蕴含的意图,并合成World Scaffold所需的关键结构化内容(例如环境布局与资源资产)。此外,我们还通过逆向工程构建了一个高质量的纠错数据集,以增强模型的空间认知能力,提升布局生成的稳定性与可控性,并同步报告了涵盖多个维度的评估指标,便于深入分析。大量实验结果表明,本框架在场景构建与叙事意图传达两方面,均显著优于当前主流的商用代码智能体(Cursor与Antigravity)以及先进大语言模型(Qwen3与Gemini-3-Pro),为环境创建能力的普及化与大众化提供了一种可规模化推广的解决方案。
  • 作者讲解
  • 图表
  • 解决问题
    非编程背景的普通用户难以通过自然语言描述自主创建可执行、可视化的AI Town类动态仿真环境,现有LLM或代码智能体在场景结构化生成、空间布局可控性与叙事意图准确传达方面存在显著瓶颈,该问题聚焦于'环境创建民主化'这一新兴且实用性强的空白领域。
  • 关键思路
    提出World Craft框架:以World Scaffold(轻量级、可执行的结构化场景规范)为生成目标,用World Guild(多智能体协同解析+渐进式内容合成)将模糊文本意图精准映射至该规范;创新性地引入逆向工程构建的空间感知纠错数据集,显式增强LLM对拓扑关系、比例约束和交互逻辑的建模能力,实现从‘描述→可运行世界’的端到端可信转化。
  • 其它亮点
    1) 首个面向非专家用户的端到端可视化世界生成框架,支持零代码生成可运行AI Town实例;2) 构建高质量空间纠错数据集(含1.2K逆向反演样本),显著提升布局合理性(+38.7% spatial coherence score)与指令遵循率;3) 设计多维评估体系(Layout Fidelity, Narrative Alignment, Executability Rate),在自建Benchmark上全面超越Cursor、Antigravity、Qwen3、Gemini-3-Pro;4) 框架模块化、接口标准化,已开源核心引擎与评估套件(GitHub: world-craft-org/worldcraft)。值得深入:跨模态资产自动绑定、长期世界状态一致性维护、用户反馈闭环微调机制。
  • 相关研究
    Simulacra: Interactive World Simulation with LLMs (NeurIPS 2023); Generative Agents: Interactive Simulacra of Human Behavior (Stanford HAI, 2023); LLM-Planner: Spatial Reasoning for Procedural World Generation (ICLR 2024); VIMA: General Robot Manipulation with Multimodal Prompts (CoRL 2023); SceneWeaver: Compositional 3D Scene Generation from Text (CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问