From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples

2024年04月11日
  • 简介
    我们分析了预训练的大型语言模型(例如Llama2、GPT-4、Claude 3等)在给定上下文示例的情况下,无需任何额外的训练或梯度更新就能够进行线性和非线性回归的表现。我们的研究发现,几个大型语言模型(例如GPT-4、Claude 3)能够以与传统的监督方法(如随机森林、装袋或梯度提升)相媲美(甚至更好)的表现来执行回归任务。例如,在具有挑战性的Friedman #2回归数据集上,Claude 3的表现超过了许多监督方法,如AdaBoost、SVM、随机森林、KNN或梯度提升。然后,我们研究了大型语言模型的性能如何随着上下文示例数量的增加而扩展。我们借鉴了在线学习的遗憾概念,并通过实验证明LLM能够获得亚线性遗憾。
  • 图表
  • 解决问题
    探究大型语言模型在给定上下文示例的情况下,是否能够进行线性和非线性回归,并且性能是否能够匹敌传统的监督学习方法?
  • 关键思路
    大型语言模型(如GPT-4、Claude 3等)可以在没有任何额外训练或梯度更新的情况下,执行回归任务,并且性能可以与传统监督学习方法相媲美或超越。
  • 其它亮点
    论文通过实验发现,大型语言模型在回归任务上的表现非常出色,甚至可以超越传统监督学习方法。研究还探究了大型语言模型在上下文示例数量增加时的性能变化,并表明其具有亚线性的后悔能力。
  • 相关研究
    最近的相关研究包括使用Transformer模型进行回归的研究,如《Attention is All You Need》和《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论