- 简介人类拥有在主动探索和与三维世界交互时产生多种多样的多感官线索的能力。然而,目前的多模态大型语言模型仅能被动地吸收感官数据作为输入,缺乏与三维环境中物体进行积极互动和动态收集它们的多感官信息的能力。为了引领这一领域的研究,我们提出了MultiPLY,一种多感官体现大型语言模型,可以将多感官交互数据(包括视觉、音频、触觉和热感信息)纳入大型语言模型,从而建立单词、行动和知觉之间的关联。为此,我们首先收集了一个大规模的多感官交互数据集——Multisensory Universe,其中包括500k条数据,通过部署一个由LLM驱动的体现代理来与三维环境进行交互。为了在这些生成的数据上进行预训练的LLM指令调整,我们首先将三维场景编码为抽象的以对象为中心的表示形式,然后引入动作令牌,表示体现代理在环境中采取某些行动,以及状态令牌,表示代理在每个时间步的多感官状态观察。在推理时,MultiPLY可以生成动作令牌,指示代理在环境中采取行动并获得下一个多感官状态观察。然后,将观察结果通过状态令牌附加回LLM,以生成后续的文本或动作令牌。我们通过一系列涉及物体检索、工具使用、多感官字幕和任务分解的多样化体现任务,证明了MultiPLY相对于基线模型有着明显的优势。
- 图表
- 解决问题本论文旨在解决当前多模态大语言模型缺乏主动探索和交互能力的问题,提出了MultiPLY,一个能够将多模态交互数据纳入大语言模型的多感官体现模型。
- 关键思路MultiPLY通过收集大规模的多感官交互数据集,并将其编码为物体中心表示和动作和状态令牌,使得模型能够主动与3D环境中的对象交互并动态收集多感官信息。
- 其它亮点MultiPLY在多个实验任务中表现出色,包括物体检索、工具使用、多感官字幕和任务分解等。同时,论文提供了一个大规模的多感官交互数据集,并开放了代码以供使用。
- 在该领域的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。
沙发等你来抢
去评论
评论
沙发等你来抢