- 简介将多个模型集成一起一直是推动现有性能极限的有效方法,通常在分类任务中广泛使用,只需对多个分类器的分类概率向量进行平均,即可实现更高的准确性。然而,在蓬勃发展的开源大型语言模型(LLM)社区中,集成方法很少见,通常仅限于集成LLM的全文输出,例如使用排名器选择最佳输出,这会导致令令牌级概率信息被低估。在本文中,我们将LLM对每个令牌的生成视为分类(GaC)进行集成。这种方法充分利用了每个生成步骤的概率信息,并更好地防止LLM产生导致雪球效应错误的早期不正确的令牌。在实验中,我们在几个基准测试中集成了最先进的LLM,并观察到我们的方法打破了现有社区性能上限。此外,我们观察到答案中大多数令牌都很简单,不会影响最终答案的正确性。因此,我们还尝试仅集成关键令牌,并且结果显示在基准测试中具有更低的延迟和更好的性能。
- 图表
- 解决问题本论文旨在解决在大型语言模型中应用集成学习方法的问题,以充分利用每个生成步骤的概率信息,避免产生早期错误的标记导致错误的累积。
- 关键思路本文提出了一种新的方法,将每个标记的生成视为分类问题,以集成多个模型的分类概率向量来获得更好的性能。
- 其它亮点本文的实验结果表明,该方法在多个基准测试中均取得了优于现有社区性能的结果。此外,研究人员还尝试了仅集成关键标记的方法,在性能更好的同时具有更低的延迟。
- 最近的相关研究包括使用集成学习方法来提高分类准确性的研究,以及使用大型语言模型来解决各种自然语言处理任务的研究。
沙发等你来抢
去评论
评论
沙发等你来抢