- 简介物理推理对于有效的机器人操作非常重要。最近的研究探讨了视觉和语言两种模式用于物理推理;视觉可以揭示环境中物体的信息,语言作为抽象和附加上下文的交流媒介。尽管这些工作在各种物理推理任务上取得了成功,但它们仅限于可以从视觉或语言输入中推断出的物理属性。在这项工作中,我们研究了将触觉感知与语言相结合,这使得具体化的系统能够通过交互获得物理属性并应用常识推理。我们贡献了一个新的数据集PhysiCLeAR,其中包括物理/属性推理任务和使用GelSight触觉传感器获取的注释触觉视频。然后,我们引入Octopi,这是一个利用触觉表示学习和大型视觉-语言模型来预测和推理触觉输入的系统,只需进行最少的语言微调即可。我们在PhysiCLeAR上的评估表明,Octopi能够有效地使用中间的物理属性预测来提高其在各种触觉相关任务上的表现。PhysiCLeAR和Octopi可在https://github.com/clear-nus/octopi上获得。
-
- 图表
- 解决问题论文旨在探究将触觉感知与语言相结合的方式,以便于机器人能够通过互动获得物理属性,并应用常识推理。
- 关键思路Octopi是一种系统,它利用触觉表示学习和大型视觉语言模型,通过最小化语言微调来预测和推理触觉输入。
- 其它亮点论文提出了一个新的数据集PhysiCLeAR,其中包含物理/属性推理任务和使用GelSight触觉传感器获取的注释触觉视频。Octopi在PhysiCLeAR上的评估表明,它能够有效地利用中间的物理属性预测来提高在各种触觉相关任务上的表现。PhysiCLeAR和Octopi都在https://github.com/clear-nus/octopi上开源。
- 最近的一些研究探索了视觉和语言模态用于物理推理,但它们仅限于可以从视觉或语言输入中推断出的物理属性。本文则结合了触觉感知和语言,使具体的系统能够通过互动获得物理属性,并应用常识推理。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流