End-to-end Listen, Look, Speak and Act

向作者提问

NEW

简介

人类的交互本质上是多模态且全双工的：我们在倾听的同时观察，在说话的同时行动，并能灵活适应话轮转换与打断。实现这些能力对于构建模拟人类行为的模型至关重要。我们提出了ELLSA（端到端倾听、观察、说话与行动），据我们所知，这是首个全双工、端到端的模型，能够在单一架构内同时实现对视觉、文本、语音和动作的感知与生成，从而支持以往无法实现的交互模式，产生更加自然、类人的行为。其核心是一种新颖的SA-MoE架构（自注意力混合专家模型），该架构将每种模态路由至专门的专家模块，并通过统一的注意力主干进行融合。这一设计为多模态联合感知与并发生成提供了通用解决方案，在利用强大预训练组件的同时，实现了高效的模态整合并缓解了模态间的干扰。在语音交互和机器人操作任务的基准测试中，ELLSA的表现达到了各模态专用基线模型的水平，同时还独特地支持多种高级多模态与全双工行为，例如对话与动作的话轮交替、对错误指令的拒绝、边说边做、基于上下文的视觉问答以及动作插话等。我们认为，ELLSA标志着向更自然、更通用的交互智能迈出了重要一步，为实现通用人工智能的长远目标作出了贡献。所有数据、代码和模型检查点将在论文被接收后公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决现有交互式AI模型在多模态、全双工（full-duplex）人类交互模拟中的局限性。当前大多数模型采用单向或分时处理模式，无法同时感知（如听、看）和生成（如说、动），难以实现自然的人类般交互行为，例如说话时动作、打断对话、边操作边回应等。这是一个尚未被充分探索的新问题，尤其是在端到端统一架构下实现跨视觉、文本、语音和动作的并发处理。
关键思路

提出ELLSA模型——首个端到端、全双工的多模态智能体架构，能够同时进行倾听、观察、说话和行动。其核心是SA-MoE（自注意力混合专家）结构，将不同模态路由至专用专家网络，并通过统一的注意力主干进行融合，实现了高效、低干扰的多模态联合感知与并发生成，突破了传统串行或模块化系统的限制。
其它亮点

ELLSA在语音交互和机器人操作基准上达到特定模态基线性能的同时，支持多种高级交互行为：对话与动作轮转、错误指令拒绝、说话时执行动作、基于情境的视觉问答、动作打断（action barge-ins）等。实验设计覆盖真实人机交互场景，使用了多模态交互数据集（具体名称未提，但暗示包含语音、视觉、动作标注）。作者承诺开源所有数据、代码和模型权重，极具可复现性和推动社区研究潜力。未来方向包括扩展至更复杂的社会交互、长期记忆集成及在真实世界部署中的鲁棒性提升。
相关研究

1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. VoiceLoop: Speech Synthesis with a Listening Model 4. Unified-IO: A Unified Model for Vision, Language, and Action 5. CoCa: Contrastive Captioners are Image-Text-Alignment Generalists

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问