Language models are weak learners

H Manikandan, Y Jiang, J Z Kolter
[CMU]

语言模型可以是弱学习器

要点:

  • 动机:在实践和理论机器学习中,弱学习器是一个核心概念,指在任意给定的数据分布上,即使只有一点点优于随机性能的分类器。这些弱学习器构成了如boosting方法等经典机器学习方法的实践基础。本文展示了基于提示的大型语言模型可以有效地作为这样的弱学习器。具体来说,展示了如何使用大型语言模型(LLM)作为应用于表格数据的boosting算法中的弱学习器。
  • 方法:通过提供(根据感兴趣的分布适当采样的)表格数据样本的文本描述,LLM可以生成一个作为分类模板的样本摘要,并实现作为此任务的弱学习器的目标。将这些模型整合到一个boosting方法中,在某些设置中,可以利用LLM中的知识来超越传统的基于树的boosting。该模型在少样本学习和偶尔甚至更复杂的微调程序中表现优于其他方法,特别是对于涉及少量数据点的任务。
  • 优势:所提出方法避免了学习额外参数的开销,是非梯度的,不需要访问模型的内部状态。其次,该方法不是将知识存储在参数中,而是将知识压缩到被称为“摘要”的中间表示中。这种替代策略增强了可解释性,并且严格通过提示进行学习,使其特别适合于小型表格数据,其中LLM中的先验知识可以显著地促进学习过程。


提出一种使用大型语言模型生成弱学习器的方法,并将这些弱学习器整合到boosting框架中,这种方法可以有效地处理表格数据,尤其是在数据点较少的情况下,表现出了优越的性能。

https://arxiv.org/abs/2306.14101 


图片



内容中包含的图片若涉及版权问题,请及时与我们联系删除