- 简介实践中,研究人员可选用大量语言模型及多种提示策略来解决各类语言建模任务;然而既有研究表明,模型性能对这两类选择均高度敏感。经典的机器学习集成(ensembling)技术为此提供了一种有理论依据的解决方案:通过聚合多个模型的预测结果,以期获得优于任一单个模型的性能表现。然而,在解码阶段将集成方法应用于语言模型却面临挑战:若简单地对各模型输出的下一个词元(next-token)概率进行加总或平均,则所得样本仅来自一种局部归一化、存在偏差的近似分布;而该近似分布本身,只是对通常难以精确计算的字符串级集成分布的一种粗略逼近。本文提出一个统一框架,支持将 $K$ 个语言模型组合为一类广义的 $f$-集成分布($f$-ensemble distributions),其中函数 $f\colon\mathbb{R}_{\geq 0}^{K}\to\mathbb{R}_{\geq 0}$ 可灵活选取,涵盖广泛形式。为从这类分布中高效采样,我们设计了一种字节级的序贯蒙特卡洛(Sequential Monte Carlo, SMC)算法;该算法在共享的字符空间中运行,既可兼容词汇表不一致的语言模型,又能在采样步数趋于无穷时保证采样结果的一致性。我们在多种提示模板与模型组合下,针对若干结构化文本生成任务,系统评估了一系列 $f$-集成方法的表现,不仅凸显了相较传统概率平均法更具优势的替代性聚合策略,也证实了更优的后验分布近似确实能带来更佳的集成性能。
-
- 图表
- 解决问题语言模型集成(ensembling)在解码阶段面临根本性挑战:简单平均各模型的词元概率会得到局部归一化、有偏的近似分布,无法准确反映真实联合字符串分布;尤其当模型词汇表不一致时,传统集成方法失效。该问题在大语言模型时代尤为突出——尽管存在大量模型和提示策略,但性能对二者高度敏感,亟需 principled 的集成框架。
- 关键思路提出统一的 f-ensemble 框架:允许任意非负函数 f(如几何平均、调和平均、LogSumExp等)组合 K 个语言模型的输出得分,而非局限于算术平均;并设计字节级顺序蒙特卡洛(byte-level SMC)采样算法,在共享字节空间中实现无偏渐近一致采样,天然兼容异构词汇表模型。这是首个将泛函集成与严格贝叶斯序列采样结合的通用框架。
- 其它亮点在结构化文本生成任务(如 JSON、SQL、代码补全)上系统评估多种 f-ensembles(如 Geometric、Rényi、Power-mean),发现几何平均等替代聚合显著优于传统概率平均;实验覆盖多模型(Llama, Mistral, Phi-3)、多提示策略(CoT, self-refine)组合;使用公开基准(Spider, GSM8K, HumanEval);未提及开源代码,但算法设计具强可复现性;未来方向包括:f 函数的自适应学习、SMC 与 LLM 推理引擎(如 vLLM)的深度集成、以及在 RLHF 后验校准中的应用。
- Ensemble Methods for Large Language Models (NeurIPS 2023); Token-Level Ensemble Decoding for Neural Machine Translation (ACL 2022); Logit Ensembling and Temperature Scaling for Calibration (ICML 2023); Monte Carlo Tree Search for LLM Decoding (arXiv:2310.19519); Vocabulary-Agnostic Sequence Modeling with Byte Pair Encoding (EMNLP 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流