Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model

向作者提问

NEW

简介

通过大型语言模型（LLMs）的强大功能，开放式的具有体现特征的智能体可以灵活地理解人类指令，生成可解释的指导策略，并输出可执行的动作。现在，多模态语言模型（MLMs）将多模态信号集成到LLMs中，进一步为实体智能体带来更丰富的感知能力，使具有体现特征的智能体更加细致地感知世界理解任务。然而，现有的工作：1）由智能体独立操作，每个智能体包含多个LLMs，从感知到行动，导致复杂任务和执行之间存在差距；2）在静态数据上训练MLMs，在开放式场景中难以应对动态情况；3）直接将先验知识作为提示输入，抑制了应用的灵活性。我们提出了STEVE-2，这是一个用于开放式体现任务的分层知识蒸馏框架，其特点是：1）多粒度任务划分的分层系统；2）用于并行模拟数据的镜像蒸馏方法；3）用于将额外的知识引入并行模拟的额外专家模型。经过蒸馏，具有体现特征的智能体可以在没有额外专家指导的情况下完成复杂的开放式任务，利用多才多艺的MLM的性能和知识。对导航和创造任务的广泛评估突出了STEVE-2在开放式任务中的卓越表现，性能提高了1.4倍至7.3倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决开放式任务中多模态语言模型的应用问题，包括任务执行的间隙、静态数据的应用以及直接输入先验知识的局限性。
关键思路

论文提出了一种分层知识蒸馏框架STEVE-2，通过分层任务划分、镜像蒸馏方法和额外的专家模型，将多模态语言模型的性能和知识迁移至实体代理人，从而使其能够完成复杂的开放式任务。
其它亮点

论文在导航和创造任务上进行了广泛的评估，结果表明STEVE-2在开放式任务中具有优越的性能，相较于现有方法提高了1.4倍至7.3倍。此外，论文还提供了开源代码和数据集，并提出了一些值得深入研究的问题，如如何更好地利用额外的专家模型。
相关研究

在最近的相关研究中，也有一些关于多模态语言模型在实体代理人中的应用的研究，如《Embodied Language Grounding with Multi-modal Transformers》和《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问