【论文标题】Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
【多模态表征学习】Transformer就是您需要的一切:使用统一的Transformer的多模态多任务学习
【论坛网址】https://hub.baai.ac.cn/view/6609
【作者团队】Ronghang Hu, Amanpreet Singh
【代码链接】https://mmf.sh/
【作者链接】http://ronghanghu.com/
【机构】Facebook AI Research(FAIR)
【发表时间】2021/2/22
【论文链接】https://arxiv.org/abs/2102.10772
【推荐理由】
来自Facebook AI研究院的胡戎航博士团队提出一种统一Transformer模型可以共同学习视觉和语言中的七种任务:从目标检测到语言理解到多模态推理。
我们提出使用统一Transformer模型UniT,以同时学习跨领域最重要的任务,从目标检测到语言理解和多模式推理。基于Transformer编码器-解码器体系结构,UniT模型使用编码器对每个输入形式进行编码,并使用共享的解码器对编码后的输入表示形式的每个任务进行预测,然后对特定任务的输出头进行预测。整个模型经过端到端的联合培训,每项任务都会造成损失。与以前使用Transformer进行多任务学习的方法相比,UniT对所有任务共享相同的模型参数,而不是分别微调特定于任务的模型,并处理不同领域中更多种类的任务。在实验中,通过8个数据集共同学习了7个任务,在相同的监督下,通过一组紧凑的模型参数,可以达到各个领域的最佳性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢