Bridging the Gap between Different Vocabularies for LLM Ensemble

简介

将不同的大型语言模型（LLMs）组合起来，发挥它们的互补潜力和个体优势是非常有价值的。然而，各种LLMs之间的词汇差异限制了先前研究要么选择要么完全混合生成的输出。这种限制阻碍了在生成过程中对输出进行动态纠正和增强，导致有效集成的能力有限。为了解决这个问题，我们提出了一种新的方法，通过词汇对齐（EVA）来集成LLMs。EVA弥合了不同LLMs之间的词汇差距，使得在每一次生成步骤中都能进行精细的集成。具体而言，我们首先利用重叠的标记学习不同LLMs之间词汇的映射。随后，利用这些映射将LLMs的输出分布投影到统一的空间中，从而促进了细粒度的集成。最后，我们设计了一种过滤策略来排除生成不忠实标记的模型。在常识推理、算术推理、机器翻译和数据到文本生成任务上的实验结果表明，与单个LLMs和以前在完整输出上进行的集成方法相比，我们的方法具有优越性。进一步的分析证实，我们的方法可以利用不同语言模型的知识，并产生一致的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文提出一种新的方法Ensemble LLMs via Vocabulary Alignment (EVA)来解决不同LLMs之间的词汇差异问题，以便更好地利用它们的优势进行集成。
关键思路

关键思路：EVA通过学习不同LLMs之间的词汇映射，并将其应用于将LLMs的输出分布投影到统一空间，从而实现精细集成。同时，还设计了一种过滤策略来排除生成不准确的模型。
其它亮点

其他亮点：论文在常识推理、算术推理、机器翻译和数据到文本生成任务上进行了实验，证明了EVA方法相对于单个LLMs和以前的集成方法的优越性。此外，论文还表明EVA方法可以利用不同语言模型的知识并产生一致的改进。
相关研究

相关研究：最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。

Bridging the Gap between Different Vocabularies for LLM Ensemble

提问交流

提问交流