Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

向作者提问

NEW

简介

机器人操作需要丰富的多模态感知能力以及高效的学习框架，以应对复杂的真实世界任务。透皮式（See-through-skin, STS）传感器融合了触觉与视觉感知，展现出良好的传感潜力，而现代模仿学习则为策略获取提供了强有力的工具。然而，现有的STS设计无法实现同步的多模态感知，且触觉追踪的可靠性不足。此外，如何将这些丰富的多模态信号有效整合到基于学习的操作流程中，仍是一个未解难题。本文提出了TacThru，一种能够实现同步视觉感知与鲁棒触觉信号提取的STS传感器，以及TacThru-UMI，一种利用这些多模态信号进行操作任务的模仿学习框架。我们的传感器采用完全透明的弹性体、持续照明、创新的关键线标记和高效的追踪机制；而我们的学习系统则通过基于Transformer的扩散策略模型对这些信号进行融合。在五个具有挑战性的现实世界任务上的实验表明，TacThru-UMI的平均成功率达到85.5%，显著优于交替使用触觉与视觉（66.3%）和仅使用视觉（55.4%）的基线方法。该系统在关键场景中表现尤为出色，包括对薄而柔软物体的接触检测，以及需要多模态协同的精细操作任务。本研究证明，将同步的多模态感知与现代学习框架相结合，能够实现更精确、更灵活的机器人操作。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文旨在解决机器人操作中多模态感知不充分和触觉信号跟踪不可靠的问题，尤其是在见皮传感器（STS）中缺乏视觉与触觉的同步感知。同时，如何有效整合丰富的多模态信号到基于学习的操作框架中仍是一个开放挑战。该问题在当前机器人学习与感知领域具有现实意义，并非全新问题，但尚未被有效解决。
关键思路

提出TacThru传感器，实现视觉与触觉的同步感知，通过全透明弹性体、持续照明、新型关键线标记和高效追踪技术提升触觉信号鲁棒性；并设计TacThru-UMI学习框架，采用基于Transformer的扩散策略（Diffusion Policy）融合多模态信号进行模仿学习。其创新在于实现了真正意义上的同步多模态感知，并有效将其集成到现代生成式策略学习中。
其它亮点

在五个具挑战性的现实世界任务上实验，TacThru-UMI平均成功率高达85.5%，显著优于交替触觉-视觉（66.3%）和纯视觉（55.4%）基线。系统在接触检测（尤其是薄软物体）和高精度操作中表现突出。实验设计合理，涵盖多种复杂场景。目前未提及是否开源代码，值得后续推动数据与模型开源。未来可探索在更复杂动态环境中的泛化能力及与其他多模态学习范式的结合。
相关研究

1. 'Digit: A Low-Cost, High-Resolution Robotic Tactile Sensor' (2019) 2. 'Tacto: 1K+ Frames-per-Second Touch Sensing with a Gel-Based Sensor' (2021) 3. 'UMI: Unified Multimodal Imitation Learning' (2023) 4. 'Diffusion Policies as Generalized Policy Learning: Theory and Practice' (2023) 5. 'See-Through-Skin: An RGB-Based Tactile Sensor with Robust Contact Tracking' (2022)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问