- 简介减少语言模型(LMs)在商业应用中的服务成本和延迟是一个基本问题。为了解决这个问题,级联LMs提供了一种有效的解决方案,可以根据查询的简单程度有条件地使用较小的模型。通常,级联系统是由独立训练的模型构建而成,忽略了在训练期间考虑级联LMs的推理时间交互的优势。在本文中,我们提出了级联感知训练(CAT),一种优化级联LMs总体质量-成本性能平衡的方法。我们通过训练小型LM,使其意识到自己在级联中的位置和下游能力,从而实现推理时间的优势。我们在SuperGLUE、WMT22和FLAN2021数据集的60多个LM任务中展示了所提出方法的价值。
- 图表
- 解决问题本文旨在解决部署语言模型(LMs)时的成本和延迟问题,通过级联LMs的方式在简单查询时使用较小的模型,从而提高整体质量-成本性能的平衡。
- 关键思路本文提出了级联感知训练(CAT)的方法,通过训练小型LM时考虑其在级联中的位置和下游能力,从而实现推理时的优化。
- 其它亮点本文在SuperGLUE、WMT22和FLAN2021数据集上进行了超过60个LM任务的实验,证明了CAT方法的有效性。该方法可以进一步改进级联LMs的性能,值得深入研究。论文未提及是否有开源代码。
- 近期的相关研究包括《Efficient Inference of Deep Cascade Models》、《Dynamic Inference for Cascade Models with Recurrent Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢