- 简介自主人工智能(AI)代理已成为自动理解基于语言的环境的有前途的协议,特别是随着大型语言模型(LLM)的指数级发展。然而,对于多模态环境的细粒度、全面的理解仍未得到充分探索。本文设计了一个自主工作流程,旨在为细粒度训练将AI代理无缝集成到扩展现实(XR)应用程序中。我们展示了一个多模态细粒度训练助手的演示,用于在试点XR环境中组装乐高积木。具体而言,我们设计了一个脑语言代理,将LLM与记忆、规划和与XR工具的交互以及视觉语言代理相结合,使代理能够根据过去的经验决定它们的行动。此外,我们介绍了LEGO-MRTA,这是一个多模态细粒度组装对话数据集,在商业LLM提供的工作流程中自动合成。该数据集包括多模态指令手册、对话、XR响应和视觉问答。最后,我们提出了几个流行的开放资源LLM作为基准,评估它们在所提出的数据集上进行微调和不进行微调的性能。我们预计,这个工作流程的广泛影响将推动更智能的助手的发展,以实现在XR环境中无缝的用户交互,促进AI和HCI社区的研究。
- 图表
- 解决问题论文旨在设计一种自动化工作流程,将人工智能代理与扩展现实应用程序无缝集成,以实现细粒度训练,解决多模态环境下的智能助手开发问题。
- 关键思路该论文设计了一个智能助手,它结合了大型语言模型(LLM)与记忆、规划和与扩展现实工具的交互,使代理能够根据以往的经验来决定其行动。此外,该论文还介绍了LEGO-MRTA,这是一个多模态细粒度装配对话数据集,用于评估当前开源资源LLMs的性能。
- 其它亮点论文设计了一个智能助手,它能够在扩展现实环境下帮助用户进行乐高积木的装配;论文提出了一个多模态细粒度装配对话数据集LEGO-MRTA,用于评估当前开源资源LLMs的性能;论文评估了几个当前流行的开源资源LLMs的性能,并提供了这些模型在LEGO-MRTA数据集上进行微调的结果。
- 最近的相关研究包括:1)使用自然语言处理技术来帮助用户完成物品装配的研究;2)使用深度学习技术来构建智能助手的研究;3)使用扩展现实技术来提高用户体验的研究。
沙发等你来抢
去评论
评论
沙发等你来抢