Language Model Cascades: Token-level uncertainty and beyond

2024年04月15日
  • 简介
    最近,语言模型(LMs)的最新进展在处理复杂的自然语言处理任务方面取得了显著的质量提高,但代价是增加了推理成本。级联提供了一种简单的策略,以实现更有利的成本质量权衡:在大多数“简单”实例中调用小型模型,而将少数“困难”实例推迟到大型模型中。虽然级联的原则在分类任务中已经得到了深入研究,根据理论和实践,基于预测的类别不确定性的推迟是首选的,但是对于生成LM任务,缺乏类似的理解。在这项工作中,我们开始系统研究LM级联的推迟规则。我们首先研究了预测类别不确定性自然扩展到生成LM任务的情况,即预测的序列不确定性。我们发现,这种度量存在长度偏差问题,会过度或不足地强调输出的长度。这是因为LMs生成一系列的不确定性值,每个输出标记对应一个值;而且,输出标记的数量在不同的示例中是可变的。为了缓解这个问题,我们建议利用生成LM隐含的更丰富的标记级别不确定性信息。我们认为,简单的预测序列不确定性对应于这些不确定性的简单聚合。相比之下,我们通过在一系列自然语言基准测试中使用FLAN-T5模型的实验表明,通过学习后期推迟规则来整合标记级别不确定性可以显著优于这样的简单聚合策略。我们进一步表明,整合较小模型的嵌入和较大模型的中间层可以在整体成本质量权衡方面提供额外的提升。
  • 图表
  • 解决问题
    本文旨在研究语言模型级联中推迟规则的应用,特别是针对生成型语言模型任务中的推迟规则,以实现更有利的成本-质量平衡。
  • 关键思路
    本文提出了一种基于学习的后处理推迟规则方法,通过利用生成型语言模型中丰富的令牌级别不确定性信息,显著优于简单的聚合策略。
  • 其它亮点
    本文在多个自然语言处理基准数据集上使用FLAN-T5模型进行了实验,证明了学习后处理推迟规则方法的有效性。此外,本文还发现,利用较小模型的嵌入和较大模型的中间层可以进一步提高成本-质量平衡。
  • 相关研究
    相关研究包括利用级联模型来提高模型性能和效率的研究,以及利用不确定性信息来指导模型推理的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论