A Touch, Vision, and Language Dataset for Multimodal Alignment

2024年02月20日
  • 简介
    触觉对于人类来说是一种重要的感知方式,但它尚未被纳入到多模态生成语言模型中。这部分原因是由于获取触觉数据的自然语言标签的困难,以及对齐触觉读数与视觉观察和语言描述的复杂性。为了弥合这一差距,本文介绍了一个新的数据集,包含了4.4万个野外视觉-触觉对,并由人类进行英语语言标注(10%),以及由GPT-4V进行的文本伪标注(90%)。我们使用这个数据集来训练一个视觉-语言对齐的触觉编码器,用于开放词汇分类,以及一个触觉-视觉-语言(TVL)模型,用于使用训练好的编码器进行文本生成。结果表明,通过整合触觉,TVL模型在任意这些模态对之间训练的现有模型中,提高了触觉-视觉-语言对齐的准确性(+29%分类准确度)。虽然数据集只有一小部分由人类标注,但TVL模型在新的触觉-视觉理解基准测试中,表现出比GPT-4V(+12%)和开源视觉-语言模型(+32%)更好的视觉-触觉理解能力。代码和数据:https://tactile-vlm.github.io。
  • 图表
  • 解决问题
    本文试图解决如何将触觉信息融入到多模态生成语言模型中的问题。由于获取触觉数据的自然语言标签的困难以及将触觉读数与视觉观察和语言描述对齐的复杂性,这个问题一直没有得到很好的解决。
  • 关键思路
    本文提出了一个新的数据集,包含了44K个视觉-触觉对,并且使用了人工标注(10%)和GPT-4V的文本伪标注(90%)来训练一个视觉-语言-对齐的触觉编码器和一个触觉-视觉-语言(TVL)模型,用于文本生成。结果表明,通过融合触觉信息,TVL模型在触觉-视觉-语言对齐方面比现有的任何模型都有所提高。
  • 其它亮点
    本文提出了一个新的数据集,包含了44K个视觉-触觉对,并且使用了人工标注(10%)和GPT-4V的文本伪标注(90%)来训练模型。结果表明,TVL模型在触觉-视觉-语言对齐方面比现有的任何模型都有所提高。此外,本文还提供了代码和数据集,并且在一个新的触觉-视觉理解基准测试中,TVL模型的视觉-触觉理解能力比GPT-4V和开源视觉-语言模型都有所提高。
  • 相关研究
    最近的相关研究包括:1.《Multimodal Language Processing with Unified Language Model Pre-training》;2.《Multimodal Language Analysis and Generation with Transformers》;3.《Towards Multimodal Image-Text Representation Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论