- 简介人类的交互本质上是多模态且全双工的:我们在倾听的同时观察,在说话的同时行动,并能灵活适应话轮转换与打断。实现这些能力对于构建模拟人类行为的模型至关重要。我们提出了ELLSA(端到端倾听、观察、说话与行动),据我们所知,这是首个全双工、端到端的模型,能够在单一架构内同时实现对视觉、文本、语音和动作的感知与生成,从而支持以往无法实现的交互模式,产生更加自然、类人的行为。其核心是一种新颖的SA-MoE架构(自注意力混合专家模型),该架构将每种模态路由至专门的专家模块,并通过统一的注意力主干进行融合。这一设计为多模态联合感知与并发生成提供了通用解决方案,在利用强大预训练组件的同时,实现了高效的模态整合并缓解了模态间的干扰。在语音交互和机器人操作任务的基准测试中,ELLSA的表现达到了各模态专用基线模型的水平,同时还独特地支持多种高级多模态与全双工行为,例如对话与动作的话轮交替、对错误指令的拒绝、边说边做、基于上下文的视觉问答以及动作插话等。我们认为,ELLSA标志着向更自然、更通用的交互智能迈出了重要一步,为实现通用人工智能的长远目标作出了贡献。所有数据、代码和模型检查点将在论文被接收后公开发布。
-
- 图表
- 解决问题论文试图解决现有交互式AI模型在多模态、全双工(full-duplex)人类交互模拟中的局限性。当前大多数模型采用单向或分时处理模式,无法同时感知(如听、看)和生成(如说、动),难以实现自然的人类般交互行为,例如说话时动作、打断对话、边操作边回应等。这是一个尚未被充分探索的新问题,尤其是在端到端统一架构下实现跨视觉、文本、语音和动作的并发处理。
- 关键思路提出ELLSA模型——首个端到端、全双工的多模态智能体架构,能够同时进行倾听、观察、说话和行动。其核心是SA-MoE(自注意力混合专家)结构,将不同模态路由至专用专家网络,并通过统一的注意力主干进行融合,实现了高效、低干扰的多模态联合感知与并发生成,突破了传统串行或模块化系统的限制。
- 其它亮点ELLSA在语音交互和机器人操作基准上达到特定模态基线性能的同时,支持多种高级交互行为:对话与动作轮转、错误指令拒绝、说话时执行动作、基于情境的视觉问答、动作打断(action barge-ins)等。实验设计覆盖真实人机交互场景,使用了多模态交互数据集(具体名称未提,但暗示包含语音、视觉、动作标注)。作者承诺开源所有数据、代码和模型权重,极具可复现性和推动社区研究潜力。未来方向包括扩展至更复杂的社会交互、长期记忆集成及在真实世界部署中的鲁棒性提升。
- 1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. VoiceLoop: Speech Synthesis with a Listening Model 4. Unified-IO: A Unified Model for Vision, Language, and Action 5. CoCa: Contrastive Captioners are Image-Text-Alignment Generalists
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流