Bridging the Gap between Different Vocabularies for LLM Ensemble

2024年04月15日
  • 简介
    将不同的大型语言模型(LLMs)组合起来,发挥它们的互补潜力和个体优势是非常有价值的。然而,各种LLMs之间的词汇差异限制了先前研究要么选择要么完全混合生成的输出。这种限制阻碍了在生成过程中对输出进行动态纠正和增强,导致有效集成的能力有限。为了解决这个问题,我们提出了一种新的方法,通过词汇对齐(EVA)来集成LLMs。EVA弥合了不同LLMs之间的词汇差距,使得在每一次生成步骤中都能进行精细的集成。具体而言,我们首先利用重叠的标记学习不同LLMs之间词汇的映射。随后,利用这些映射将LLMs的输出分布投影到统一的空间中,从而促进了细粒度的集成。最后,我们设计了一种过滤策略来排除生成不忠实标记的模型。在常识推理、算术推理、机器翻译和数据到文本生成任务上的实验结果表明,与单个LLMs和以前在完整输出上进行的集成方法相比,我们的方法具有优越性。进一步的分析证实,我们的方法可以利用不同语言模型的知识,并产生一致的改进。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文提出一种新的方法Ensemble LLMs via Vocabulary Alignment (EVA)来解决不同LLMs之间的词汇差异问题,以便更好地利用它们的优势进行集成。
  • 关键思路
    关键思路:EVA通过学习不同LLMs之间的词汇映射,并将其应用于将LLMs的输出分布投影到统一空间,从而实现精细集成。同时,还设计了一种过滤策略来排除生成不准确的模型。
  • 其它亮点
    其他亮点:论文在常识推理、算术推理、机器翻译和数据到文本生成任务上进行了实验,证明了EVA方法相对于单个LLMs和以前的集成方法的优越性。此外,论文还表明EVA方法可以利用不同语言模型的知识并产生一致的改进。
  • 相关研究
    相关研究:最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问