ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities
解决问题:本文旨在探索一种可扩展的方法,构建一个通用的表示模型,用于处理无限的模态数据。作者提出了ONE-PEACE模型,该模型由多模态适配器、共享的自注意力层和模态前馈神经网络组成,可以无缝地对齐和整合视觉、音频和语言模态的表示。本文的目标是为了解决多模态数据处理中的通用表示问题。
关键思路:本文的关键思路是通过ONE-PEACE模型的设计,实现对不同模态数据的表示和整合。作者提出了两个模态无关的预训练任务,即交叉模态对齐对比和内部模态去噪对比,以对齐不同模态的语义空间和同时捕捉模态内的细粒度细节。该模型可以通过添加适配器和前馈神经网络轻松扩展新的模态,同时通过自注意力层实现多模态融合。与当前领域内的研究相比,ONE-PEACE模型的创新之处在于其高度可扩展性和模态无关的预训练任务。
其他亮点:本文的实验结果表明,ONE-PEACE在不使用任何预训练模型的情况下,在多个单模态和多模态任务上均取得了领先的结果,包括图像分类(ImageNet)、语义分割(ADE20K)、音频文本检索(AudioCaps、Clotho)、音频分类(ESC-50、FSD50K、VGGSound)、音频问答(AVQA)、图像文本检索(MSCOCO、Flickr30K)和视觉定位(RefCOCO / + / g)。作者还在GitHub上开源了代码,方便其他研究者使用和参考。本文的工作值得进一步深入研究,探索其在更广泛的模态数据处理任务中的应用。
关于作者:本文的主要作者来自清华大学、北京大学、华为诺亚方舟实验室和深圳瑞云科技有限公司。他们都在计算机视觉、自然语言处理和机器学习领域有着丰富的研究经验。其中,王鹏教授曾在ImageNet比赛中获得过多个冠军,主要研究方向包括深度学习、计算机视觉和自然语言处理;周靖仁教授是自然语言处理领域的专家,曾在多个国际会议上担任程序委员会主席;王兴刚教授是计算机视觉领域的专家,曾在多个国际会议上担任程序委员会主席。
相关研究:近期其他相关的研究包括:《Unified Vision-Language Pre-Training for Image Captioning and VQA》(Luowei Zhou等,CMU)、《Learning Transferable Visual Models From Natural Language Supervision》(Ishan Misra等,Facebook AI Research)、《Multimodal Pretraining for Dense Video Captioning》(Yingwei Pan等,CUHK)等。这些研究都探索了多模态数据处理的相关问题,例如图像字幕和视觉问答等任务。
论文摘要:本文探讨了一种可扩展的方法来构建通向无限模态的通用表示模型。我们发布了一个高度可扩展的模型ONE-PEACE,它具有40亿个参数,可以无缝地对齐和整合视觉、音频和语言模态的表示。ONE-PEACE的架构包括模态适配器、共享自注意力层和模态FFN。这种设计允许通过添加适配器和FFN轻松扩展新的模态,同时也通过自注意力层实现多模态融合。为了预训练ONE-PEACE,我们开发了两个模态不可知的预训练任务,即跨模态对齐对比和内部模态去噪对比,这些任务可以同时对齐不同模态的语义空间并捕捉模态内的细节。借助可扩展的架构和预训练任务,ONE-PEACE有潜力扩展到无限模态。在没有使用任何视觉或语言预训练模型进行初始化的情况下,ONE-PEACE在广泛的单模态和多模态任务中取得了领先的结果,包括图像分类(ImageNet)、语义分割(ADE20K)、音频文本检索(AudioCaps、Clotho)、音频分类(ESC-50、FSD50K、VGGSound)、音频问答(AVQA)、图像文本检索(MSCOCO、Flickr30K)和视觉基础(RefCOCO / + / g)。代码可在https://github.com/OFA-Sys/ONE-PEACE上找到。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢