指代性表达(Reference Expression,RE)是描述真实场景中一个明确的对象,是人类社会中一种重要的认知行为。人们在日常生活中为一个对象构想一个 RE,并根据一个 RE 来识别一个所指对象,它们分别被命名为指代性表达生成和理解。由于其广阔的研究前景和实际应用,这两项任务引起了自然语言处理、计算机视觉和人机交互领域的广泛兴趣。

 

指代性表达的生成(REG)和理解(REC)就像同一枚硬币的两侧一样相互依赖。例如,在构思明确的描述之前,人们需要根据脑海中的描述来正确定位对象。但是,之前的研究很少关注解决指代性表达生成和理解的统一建模问题,目前也还没有针对指代性表达生成和理解的统一建模的图像文本预训练研究。

 

北京邮电大学、字节跳动人工智能实验室以及苏州大学的研究者提出了一个统一的 REG 和 REC 模型(UniRef)。它将这两个任务通过精心设计的图像-区域-文本融合层(Image-Region-Text Fusion layer,IRTF)统一起来,图像-区域-文本融合层通过图像互注意力与区域互注意力来融合图像、区域与文本信息。此外,它可以为 REC 任务生成伪区域输入,以便以统一的方式在 REC 和 REG 之间共享相同的表示空间。

 

本工作的研究员在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上进行了广泛的实验。实验结果表明,所提出的模型在 REG 和 REC 上都优于以前最先进的方法。

 

图片

论文地址:

https://arxiv.org/pdf/2210.13076.pdf