Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

简介

本文提出了一种名为Zipper的多塔解码器架构，通过使用交叉注意力从独立预训练的单模解码器中灵活地组合多模式生成模型，以解决将多个生成基础模型整合成比其总和更大的模型所面临的挑战。在融合语音和文本模态的实验中，该架构在具有有限对齐文本-语音数据的情况下表现出了非常有竞争力的性能。同时，该模型还具有灵活性，可以通过冻结相应的单模塔来选择性地保持单模式生成性能。在输出模态为文本的跨模态任务（例如自动语音识别（ASR））中，冻结文本骨干会导致性能下降不明显。在输出模态为语音的跨模态任务（例如文本到语音生成（TTS））中，使用预训练的语音骨干会比基线模型表现更好。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

如何将多个单模态生成模型整合成更强大的多模态生成模型？如何在跨域生成任务中有效利用单模态表示，同时不损害它们的原始单模态能力？
关键思路

提出了一种名为Zipper的多塔解码器架构，利用交叉注意力从独立预训练的单模态解码器中灵活地组合多模态生成模型，解决了数据对齐和跨域生成任务中的问题。
其它亮点

在融合语音和文本模态的实验中，Zipper表现出色，即使在具有有限对齐文本语音数据的情况下也如此。Zipper模型还可以选择性地保持单模态生成性能，通过冻结相应的模态塔。在跨模态任务中，如自动语音识别（ASR），输出模态是文本，冻结文本塔的结果表现出令人满意的性能。在文本到语音生成（TTS）等跨模态任务中，使用预训练的语音塔的性能优于基线。
相关研究

在最近的研究中，还有一些相关的工作，如《Learning Multimodal Generation》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

提问交流

提问交流