Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation

2024年05月14日
  • 简介
    尽管在大量数据上进行预训练有助于机器人学习,但当前的范例仅对视觉表征进行大规模预训练,而其他模态的表征则需要从头开始训练。与视觉数据的丰富相比,目前尚不清楚可用于预训练触觉感知等其他模态的相关互联网规模数据。在机器人应用中,数据不足的情况很常见,因此这种预训练变得越来越重要。本文通过使用接触式麦克风作为替代触觉传感器来填补这一空白。我们的关键见解是,接触式麦克风捕捉固有的基于音频的信息,使我们能够利用大规模的音频-视觉预训练来获得提高机器人操作性能的表征。据我们所知,我们的方法是第一种利用大规模多感官预训练进行机器人操作的方法。有关真实机器人实验视频等补充信息,请访问 https://sites.google.com/view/hearing-touch。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决机器人学习中大规模预训练只针对视觉表示的问题,而对于其他模态的表示仍需从头开始训练的问题。作者提出使用接触式麦克风作为替代性触觉传感器,以利用大规模音频-视觉预训练获取表示,从而提高机器人操作的性能。
  • 关键思路
    本论文的关键思路是使用接触式麦克风作为替代性触觉传感器,将其获取的音频信息与视觉信息进行联合预训练,以获取更好的机器人操作表示。
  • 其它亮点
    论文使用接触式麦克风作为替代性触觉传感器,将其获取的音频信息与视觉信息进行联合预训练,实现了在低数据情况下提高机器人操作性能的目标。论文还提供了实验视频和开源代码,值得深入研究。
  • 相关研究
    在这个领域中,最近的相关研究有《Multimodal Deep Learning for Robotic Pushing: An Experimental Study》、《Combining Vision and Touch for Object Recognition in Clutter》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问