Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

简介

Zipper是一种多塔解码器架构，通过使用交叉注意力灵活地组合来自独立预训练的单模解码器的多模生成模型来解决集成多个生成基础模型的挑战，特别是那些在不同模态上进行训练的模型。该架构解决了两个主要难题：可用的对齐数据（包含相似含义但在不同模态中表达不同的概念）和有效地利用单模表示在跨领域生成任务中，而不会损害它们的原始单模能力。在融合语音和文本模态的实验中，我们展示了Zipper的性能非常有竞争力，尤其是在有限对齐文本-语音数据的情况下。我们还展示了我们的模型的灵活性，通过冻结相应的模态塔（例如文本），可以选择性地保持单模（例如文本到文本生成）生成性能。在输出模态为文本的跨模态任务（例如自动语音识别（ASR））中，我们展示冻结文本骨干会导致可忽略的性能降低。在输出模态为语音的跨模态任务（例如文本到语音生成（TTS））中，我们展示使用预训练的语音骨干会比基准模型具有更好的性能。
图表
解决问题

多模态生成模型在整合多个单模态生成模型时面临的问题是什么？如何在跨域生成任务中有效利用单模态表示，同时不降低其原始单模态能力？
关键思路

提出Zipper，一种多塔解码器架构，通过使用交叉注意力从独立预训练的单模态解码器中灵活组合多模态生成模型来解决这些问题。
其它亮点

论文使用语音和文本模态进行实验，展示了Zipper在有限对齐文本-语音数据的情况下的竞争性表现。实验还展示了Zipper模型的灵活性，可以通过冻结相应的模态塔来选择性地保持单模态生成性能。在自动语音识别（ASR）等输出模态为文本的跨模态任务中，冻结文本骨干会导致性能下降微不足道。在文本到语音生成（TTS）等输出模态为语音的跨模态任务中，使用预训练语音骨干会比基线表现更好。
相关研究

相关研究包括：1）使用自监督学习的多模态生成模型；2）使用交叉注意力的多模态生成模型；3）使用对抗训练的多模态生成模型等。

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

评论