Touch100k: A Large-Scale Touch-Language-Vision Dataset for Touch-Centric Multimodal Representation

向作者提问

NEW

简介

触觉在增强人类和机器人的感知和互动能力方面占据着重要的地位。尽管其重要性，当前的触觉研究主要关注视觉和触觉模式，忽略了语言领域。在此启发下，我们构建了Touch100k数据集，该数据集是一个包含100k个配对的触觉-语言-视觉数据集，具有多个粒度的触觉感觉描述（即，具有丰富语义的句子级自然表达，包括上下文和动态关系，以及捕捉触觉感觉关键特征的短语级描述）。基于该数据集，我们提出了一种预训练方法，Touch-Language-Vision Representation Learning through Curriculum Linking（简称TLV-Link），灵感来自课程学习的概念。TLV-Link旨在学习GelSight传感器的触觉表示，并捕捉触觉、语言和视觉模态之间的关系。我们评估了我们的表示在两个任务类别（材料属性识别和机器人抓取预测）上的性能，重点关注触觉表示和零-shot触觉理解。实验评估展示了我们表示的有效性。通过使TLV-Link实现实质性改进并在触觉中心的多模态表示学习中建立新的最先进技术，Touch100k展示了其作为研究有价值的资源的价值。项目页面：https://cocacola-lab.github.io/Touch100k/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在构建一个大规模的触觉-语言-视觉数据集Touch100k，并提出一种基于课程学习的触觉-语言-视觉表示学习方法TLV-Link，以解决触觉表征和零样本触觉理解问题。
关键思路

论文提出了一种基于课程学习的触觉-语言-视觉表示学习方法TLV-Link，旨在学习GelSight传感器的触觉表征，并捕捉触觉、语言和视觉模态之间的关系。
其它亮点

论文构建了一个大规模的触觉-语言-视觉数据集Touch100k，提供了多种粒度的触觉感受描述，并在材料属性识别和机器人抓取预测两个任务上评估了TLV-Link的性能。实验结果表明，TLV-Link能够显著提高触觉表征的性能，并在零样本触觉理解方面取得新的最优结果。
相关研究

在相关研究方面，最近的一些研究包括：《Tactile-based Object Recognition: A Review》、《Tactile Sensing and Control of Robotic Manipulation: A Review》、《Multimodal Learning: A Survey and Taxonomy》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问