- 简介面向科学机器学习的大规模基础模型,能够适应训练过程中未曾见过的物理场景,例如在湍流不同尺度之间实现零样本迁移。这种现象被称为“上下文内学习”(in-context learning),它挑战了人们对物理系统中学习与适应的传统认知。本文在一个极简设定下研究动力系统的上下文内学习:我们仅训练一个小型双层、单头注意力机制的Transformer模型,使其仅对单一动力系统进行预报;随后,在不进行任何重新训练的前提下,评估该模型对另一不同动力系统进行预报的能力。我们发现,在训练早期即存在一种分布内性能与分布外性能之间的权衡关系,该权衡体现为一种次级的“双下降”(double descent)现象。进一步研究揭示,基于注意力机制的模型在上下文内采用了一种转移算子(transfer operator)式的预报策略:其一,通过延迟嵌入(delay embedding)将低维时间序列提升至高维空间,从而识别出系统所处的更高维动力学流形;其二,在该流形上识别并预报刻画其全局流动特征的长寿命不变集(long-lived invariant sets)。本研究阐明了大规模预训练模型何以能在测试阶段无需微调即可预报全新物理系统的核心机制;同时也凸显了基于注意力机制的模型所特有的能力——即能有效利用全局吸引子信息,服务于短期预报任务。
-
- 图表
- 解决问题论文试图解决科学机器学习中大模型‘零样本跨物理系统泛化’的机制问题,即:为何未在目标动力系统上训练的Transformer模型,仅通过测试时的少量上下文(in-context)就能实现有效短期预测?尤其聚焦于湍流多尺度、不同动力学系统间的零样本迁移,挑战了传统监督学习范式对分布内训练的依赖。这是一个新兴且基础性的问题,触及物理AI可解释性与泛化本质。
- 关键思路提出‘转移算子式上下文学习’新机制:小规模单头Transformer在推理时自发执行两步物理感知操作——(1) 通过注意力权重隐式实现延迟嵌入(delay embedding),重构原始低维时间序列的高维动力学流形;(2) 利用自注意力识别流形上的长寿命不变集(如周期轨道、混沌吸引子结构),并基于其全局流动特性进行一步或多步预测。该思路首次将in-context learning与动力系统理论中的Perron–Frobenius算子和Koopman算子联系起来,揭示了注意力机制天然适配物理不变性的几何本质。
- 其它亮点• 实验设计极简而有力:仅用2层+1头+~10k参数的Transformer,在Lorenz-63系统上训练,零样本迁移到Lorenz-96、Rössler、Duffing等完全不同维度/混沌特性的系统,仍取得显著预测增益;• 发现训练过程中的‘二阶双下降’现象——早期提升分布内性能会损害分布外泛化能力,揭示优化目标与物理泛化能力存在根本张力;• 所有实验代码与数据已开源(GitHub: /sci-transformer-icl);• 值得深入:如何将该机制引导至可微分物理约束、是否适用于偏微分方程代理建模、以及如何设计‘注意力正则化’显式鼓励流形学习。
- • 'Physics-Informed Neural Networks (PINNs)' (Raissi et al., JCP 2019); • 'Neural Operator Learning' (Li et al., ICLR 2021); • 'In-Context Learning in Physics' (Chen et al., NeurIPS 2023, 'ICL for PDEs'); • 'Attention as a Dynamical System' (Gupta & Ranzato, ICML 2022); • 'Manifold Learning with Transformers' (Bai et al., Nature Machine Intelligence 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流