Learning without training: The implicit dynamics of in-context learning

2025年07月21日
  • 简介
    大语言模型(LLM)最显著的特点之一是它们具备在上下文中学习的能力。也就是说,在推理阶段,当模型通过提示中的示例接触到某些新模式时,即使这些模式在训练阶段从未出现过,模型也能在不更新任何权重的情况下学会这些新模式。这种能力背后的机制目前仍不明确。在本研究中,我们展示了自注意力层与MLP层的堆叠结构,使Transformer模块能够根据上下文隐式地修改MLP层的权重。通过理论分析与实验验证,我们认为这一简单机制可能是大语言模型能够在上下文中学习、而不局限于训练阶段的原因。具体而言,在适度简化的假设条件下,我们展示了Transformer模块如何隐式地将上下文转化为MLP层的一个低秩权重更新。
  • 图表
  • 解决问题
    论文试图解释大语言模型(LLM)在推理阶段通过上下文学习新模式的能力,即无需更新权重即可通过提示中的示例学习新任务。这是一个尚未被完全理解的问题,尤其是在模型机制层面。
  • 关键思路
    论文提出,Transformer模块中自注意力层与MLP层的堆叠结构,能够在不显式更新权重的情况下,通过上下文隐式地对MLP的权重进行低秩更新,从而实现上下文中的学习能力。这一机制为解释LLM的上下文学习能力提供了理论基础。
  • 其它亮点
    1. 提出了一个理论模型,解释了Transformer块如何利用上下文信息隐式地修改MLP层权重。 2. 在简化假设下,推导了上下文如何导致低秩权重更新的数学表达。 3. 通过实验验证了该机制的有效性,表明上下文学习可能源于模型结构本身的特性。 4. 为未来设计更高效上下文学习模型提供了理论依据。
  • 相关研究
    1. Wei et al., 2022. Chain-of-thought prompting elicits reasoning in large language models. 2. Brown et al., 2020. Language models are few-shot learners. 3. Houlsby et al., 2019. Parameter-efficient transfer learning with adapters. 4. Liu et al., 2021. P-tuning v2: Prompt tuning can be comparable to fine-tuning across scales and tasks. 5. Achiam et al., 2022. Testing the limits of in-context learning by switching model weights mid-prompt.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论