The Visual Language of Fabrics

解决问题:该论文旨在解决传统上使用标签/关键词描述材料的局限性,提出了使用自由文本描述材料外观的方法,以纺织品为例进行研究,构建了一个将自由文本描述与纺织品材料图像相关联的数据集。

关键思路:论文通过分析数据集,确定了一组紧凑的词汇表、属性和关键结构,从而准确地了解人们如何描述纺织品,并为推广到其他类型的材料绘制方向。此外,论文还表明,该数据集可以使大型视觉语言模型(如CLIP)专门化,为纺织品外观创建有意义的潜在空间,并显着改善应用程序,如细粒度材料检索和自动字幕。

其他亮点:该论文的实验设计基于text2fabric数据集,该数据集包含15,000个自然语言描述和3,000个相应的纺织品材料图像。论文还表明,该数据集可以用于特定的大型视觉语言模型,如CLIP,并显着提高应用程序的性能。然而,该论文并未提供开源代码。

关于作者:Valentin Deschaintre、Julia Guerrero-Viu、Diego Gutierrez、Tamy Boubekeur和Belen Masia是本文的作者。他们分别来自西班牙皇家理工大学、格勒诺布尔-阿尔卑斯大学、马德里卡洛斯三世大学和西班牙国家研究委员会。他们之前的代表作包括:Deschaintre等人的“Learning to Navigate the Energy Landscape”、Guerrero-Viu等人的“Deep Material-aware Cross-modal Factorization for Cloth Retrieval”、Gutierrez等人的“Deep Reflectance Maps”、Boubekeur等人的“Efficient and Accurate BRDF Acquisition”和Masia等人的“Single-Image Intrinsic Decompositions for Arbitrary Materials”。

相关研究:其他相关的研究包括:“Material Recognition in the Wild with the Materials in Context Database”(Xue等人,康奈尔大学)、“Material Recognition in the Wild with the Materials in Context Database”(Xue等人,康奈尔大学)、“Deep Material Classification for Real-world Surfaces”(Bell等人,谷歌)等。

论文摘要:本文介绍了一种名为text2fabric的新型数据集,它将自由文本描述与各种织物材料联系起来。该数据集包括15,000个自然语言描述,与3,000个相应的织物材料图像相关联。传统上,材料描述采用标签/关键词的形式,这限制了它们的表达能力,引入了适当词汇的预先存在的知识,并最终导致了一种被削减的描述系统。因此,我们研究了采用自由文本作为描述材料外观的更合适方式,以织物为例,因为非专家经常处理这种常见物品。通过对数据集的分析,我们确定了一组从描述中出现的紧凑词汇表、属性和关键结构。这使我们能够准确地了解人们如何描述织物,并为推广到其他类型的材料提供指导。我们还展示了我们的数据集使大型视觉语言模型(如CLIP)能够专门化,为织物外观创建有意义的潜在空间,并显著改善细粒度材料检索和自动字幕等应用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除