《Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning》
作者:Zhicheng Huang、Zhaoyang Zeng、Yupan Huang 等
摘要:图像 - 文本检索中通常都是先抽取出图像中的显著区域,再与文字一一对齐。但是,由于基于区域的视觉特征只代表图像的一部分,因此现有视觉语言模型在充分理解配对自然语言的语义方面面临挑战。本文中,北京大学、中山大学、微软亚研等机构的研究者提出了 Seeing Out of tHe bOx(SOHO)的概念,中文翻译即「开箱即看」,它以完整的图像作为输入,并通过端到端的方式学习视觉语言表达。SOHO 最大的亮点是不需要边界框标注,从而使得推理速度比基于区域的方法提升了 10 倍。一系列实验也验证了 SOHO 的有效性。本文已被 CPVR 2021 会议接收。SOHO 模型工作流。

推荐:不需要边界框标注、用于视觉语言表征学习的端到端预训练模型 SOHO。
论文链接:https://arxiv.org/pdf/2104.03135.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢