Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems

简介

大型语言模型（LLMs）是在仅使用文本数据的情况下进行训练的，这些数据远远超出了具有配对语音和文本数据的语言范围。同时，基于双编码器（DE）的检索系统将查询和文档投影到相同的嵌入空间中，并在检索和双文本挖掘方面展示了成功的结果。为了匹配许多语言中的语音和文本，我们建议使用LLMs来初始化多模式DE检索系统。与传统方法不同，我们的系统在LLM预训练期间不需要语音数据，并且可以利用LLM的多语言文本理解能力来匹配在检索训练期间未见过的语音和文本。我们的多模式LLM检索系统可以在102种语言中匹配语音和文本，尽管仅在21种语言上进行了训练。我们的系统优于先前在所有102种语言上明确训练的系统。我们在这些语言中实现了Recall@1的10％绝对改进。此外，我们的模型展示了跨语言的语音和文本匹配，这进一步通过现成的机器翻译数据得到增强。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用大型语言模型实现多模态语音和文本检索？
关键思路

利用大型语言模型预训练初始化多模态检索系统，以实现多语言语音和文本的匹配。
其它亮点

论文提出的多模态检索系统不需要语音数据进行预训练，可以利用大型语言模型的多语言文本理解能力在未训练的语言中进行语音和文本的匹配。实验结果表明，该系统在102种语言中实现了语音和文本的匹配，相比之前的系统，Recall@1提高了10%。
相关研究

最近的相关研究包括基于双编码器的检索系统和使用大型语言模型进行文本检索的研究。

Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems

提问交流

提问交流