- 简介在这项工作中,我们提出将Minecraft建筑任务调整为适合评估LLM在空间定向任务中的能力并指导建筑代理设计的基准。先前的工作提出了具有不同复杂结构和人类编写指令的语料库。我们尝试提供一个全面的合成基准,以测试建筑代理在包括常见建筑操作的一系列不同任务中的表现。我们认为这种方法使我们能够探索不同代理的特定优势和劣势,并测试LLMs在具有挑战性的空间推理和基于向量的数学领域的能力。
- 图表
- 解决问题将Minecraft建筑任务转化为适合评估LLM能力的基准,并为建筑代理设计提供指导。
- 关键思路提供一种综合性的合成基准,以测试建筑代理在由常见建筑操作组成的一系列不同任务中的能力,探究不同代理的具体优缺点,并测试LLM在空间推理和基于向量的数学方面的能力。
- 其它亮点实验设计了全面的合成基准,使用了Minecraft游戏作为测试平台,开源了数据集和代码。这篇论文提供了一个新的思路来评估LLM能力。
- 最近的相关研究包括使用不同的游戏作为测试平台,或者使用不同的任务来评估LLM的能力。例如:《Cognitive Science》中的“Spatial Language Understanding with Embodied Referents”和《ICLR》中的“Learning to Navigate in Cities Without a Map”等。
沙发等你来抢
去评论
评论
沙发等你来抢