Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making

2024年10月09日
  • 简介
    我们的目标是评估大型语言模型(LLMs)在具身决策中的表现。尽管已有大量研究利用LLMs进行具身体环境中的决策,但我们仍然缺乏对其性能的系统性理解,因为这些模型通常应用于不同的领域、不同的目的,并且基于不同的输入和输出构建。此外,现有的评估往往仅依赖最终的成功率,这使得难以确定LLMs缺少哪些能力以及问题所在,从而阻碍了具身代理有效和选择性地利用LLMs。为了解决这些局限性,我们提出了一种通用接口(具身代理接口),支持各种类型任务和基于LLM模块的输入输出规范的形式化。具体而言,该接口使我们能够统一1)涉及状态和时间扩展目标的广泛具身决策任务,2)四种常用的基于LLM的决策模块:目标解释、子目标分解、动作排序和转换建模,以及3)一组细粒度的指标,将评估分解为各种类型的错误,如幻觉错误、功能错误、各种类型的规划错误等。总体而言,我们的基准测试提供了对LLMs在不同子任务中表现的全面评估,指出了LLM驱动的具身AI系统的优缺点,并为在具身决策中有效和选择性地使用LLMs提供了见解。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)在具身化决策任务中的性能评估问题。尽管已有许多工作利用LLMs进行具身化决策,但目前缺乏系统性的理解,因为这些模型通常应用于不同的领域、目的和输入输出结构。此外,现有的评估方法主要依赖最终的成功率,难以准确识别LLMs在具体能力上的不足。
  • 关键思路
    论文提出了一种通用接口(Embodied Agent Interface),该接口能够统一多种具身化决策任务、四种常用的基于LLM的决策模块(目标解释、子目标分解、动作序列化和转换建模),以及一系列细粒度的评估指标。这些指标可以分解为各种类型的错误,如幻觉错误、可操作性错误和不同类型的规划错误等,从而全面评估LLMs在不同子任务中的表现,揭示其优势和劣势,并为有效和选择性地使用LLMs提供指导。
  • 其它亮点
    1. 提出了一个通用接口,支持多种具身化决策任务和LLM模块的标准化评估。 2. 引入了一系列细粒度的评估指标,能够更精确地识别LLMs的具体问题。 3. 实验设计涵盖了多种具身化任务,包括状态和时间扩展目标。 4. 论文提供了开源代码和数据集,便于其他研究者复现和进一步研究。 5. 指出了未来研究的方向,如改进LLMs在特定任务中的表现和探索新的评估指标。
  • 相关研究
    1. "Evaluating Large Language Models Trained on Code" - 这篇论文探讨了在代码上训练的LLMs的性能评估。 2. "Embodied Question Answering in Photorealistic Environments with Point Clouds" - 研究了在具身化环境中使用点云进行问答任务的方法。 3. "Learning to Act by Asking Questions" - 探讨了通过提问来学习行动策略的方法。 4. "Hierarchical Reinforcement Learning for Long-Horizon Tasks" - 研究了分层强化学习在长时间任务中的应用。 5. "Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments" - 探讨了在真实环境中使用视觉-语言导航指令的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论