VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
解决问题:本文旨在提出一种名为VALOR的多模态理解和生成预训练模型,以解决视觉、音频和语言之间的关系建模问题。同时,为了促进视觉-音频-语言预训练研究,作者们构建了一个包含1M个可听视频的高质量三模态数据集VALOR-1M。
关键思路:VALOR模型采用端到端的方式,包含三个单模态表示的编码器和一个多模态条件文本生成的解码器。作者们设计了两个预训练任务,即多模态分组对齐(MGA)和多模态分组字幕生成(MGC)。MGA任务将视觉、语言和音频映射到相同的公共空间,同时建立视觉语言、音频语言和视听语言对齐;MGC任务学习如何在视觉、音频或两者条件下生成文本标记。相比当前领域的研究,VALOR的关键思路在于将视觉、音频和语言三个模态进行联合建模,且在多个任务上取得了最新的最佳表现。
其他亮点:VALOR模型在多个跨模态基准测试中取得了最新的最佳表现,如检索、字幕和问答等。作者们还提供了代码和数据,可以在项目页面https://casia-iva-group.github.io/projects/VALOR上获取。此外,VALOR-1M数据集的构建也是本文的亮点之一,包含大量人工注释的音频视觉字幕,可用于视觉-音频-语言预训练的研究。
关于作者:本文的主要作者来自中国科学院自动化研究所,包括Sihan Chen、Xingjian He、Longteng Guo、Xinxin Zhu、Weining Wang、Jinhui Tang和Jing Liu。他们之前的代表作包括:《基于深度学习的视觉目标跟踪综述》(Sihan Chen等,2018);《Deep Residual Learning for Nonlinear Regression》(Xingjian He等,2015)等。
相关研究:近期其他相关的研究包括:《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》(Weijie Su等,2020);《UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation》(Jingran Wen等,2020)等。这些研究都是关于多模态预训练的,但与VALOR不同的是,它们更注重于视觉-语言预训练,而VALOR则更注重于视觉-音频-语言预训练。
论文摘要:本文提出了一种名为VALOR的多模态理解和生成预训练模型,其包含三个单模态表示的编码器和一个多模态条件文本生成的解码器。与广泛研究的视觉语言预训练模型不同,VALOR以端到端的方式联合建模视觉、音频和语言之间的关系。为了预训练VALOR模型,我们设计了两个预文本任务,包括多模态分组对齐(MGA)和多模态分组字幕生成(MGC)。为了促进视觉-音频-语言预训练研究,我们构建了一个大规模的高质量三模态数据集VALOR-1M,其中包含100万个带有人工注释的音频视觉字幕视频。大量实验证明,VALOR可以学习到强大的多模态相关性,并且可以推广到各种下游任务(例如检索、字幕生成和问答),具有不同的输入模态(例如视觉-语言、音频-语言和音频视觉-语言)。VALOR在一系列公共跨模态基准测试中实现了新的最先进表现。代码和数据可在项目页面https://casia-iva-group.github.io/projects/VALOR上获得。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢