- 简介这篇论文聚焦于在模拟环境中创建人类行为的代理,利用《Among Us》作为研究模拟人类行为的工具,探究策略社交推理游戏对于评估语言模型的理解和推理能力的价值,提供对社会科学、人工智能和策略游戏的重要见解。该研究引入了一个名为AmongAgent的基于文本的游戏环境,模拟了《Among Us》的动态。在这个环境中,玩家扮演宇宙飞船上的机组成员,任务是识别破坏飞船并消灭机组成员的冒名顶替者。在这个环境中,分析了模拟语言代理的行为。实验包括不同配置的机组成员和冒名顶替者个性原型的不同游戏序列。我们的工作证明,最先进的大型语言模型(LLMs)可以有效地掌握游戏规则,并根据当前情境做出决策。这项工作旨在促进在具有不完整信息和复杂行动空间的目标导向游戏中进一步探索LLMs的应用,因为这些设置为评估语言模型在社交驱动场景中的表现提供了宝贵的机会。
- 图表
- 解决问题本文试图利用社交推理游戏作为测试人工智能语言模型的工具,以评估其理解和推断能力,并研究模拟人类行为的代理模型。
- 关键思路本文提出了一个名为AmongAgent的基于文本的游戏环境,模拟了Among Us的动态,并分析了模拟语言代理的行为。实验结果表明,最先进的大型语言模型可以有效地掌握游戏规则并基于当前上下文做出决策。
- 其它亮点本文的亮点包括提出了一种基于Among Us的代理模型,使用了大型语言模型进行实验,并探讨了在具有不完整信息和复杂行动空间的目标导向游戏中评估语言模型性能的重要性。
- 在该领域的相关研究包括使用社交推理游戏进行人工智能评估的研究,以及使用大型语言模型进行目标导向游戏的研究。
沙发等你来抢
去评论
评论
沙发等你来抢