清华首提通用大模型滤波方法，实现零样本状态估计｜NeurIPS'25

新智元报道

编辑：LRST

【新智元导读】清华大学李升波教授团队在NeurIPS 2025提出LLM-Filter通用滤波器，创新性地将状态估计融入大语言模型的推理框架，借助其先验知识与泛化能力，解决传统方法在新系统上泛化性差的问题。实验表明，该模型在未见过的系统中能实现零样本状态估计，表现优于现有学习型滤波器，有望成为科学与工程领域的基础模型。

状态估计（State Estimation）是现代科学与工程中的核心问题之一。

其目标是在存在噪声和不确定性的观测数据下，准确推断出动态系统（如机器人、飞行器或气象系统）的真实内部状态（例如位置、速度、温度等）。

长期以来，状态估计方法主要分为两大类：

经典贝叶斯滤波器：状态估计的最全面的框架是贝叶斯滤波，它通过迭代预测步和更新步来在线估计状态。流行的在线贝叶斯滤波器可以分为高斯滤波器和粒子滤波器。在高维非高斯系统中，高斯滤波器往往会产生近似误差，而粒子滤波器受其大量计算需求的限制了应用场景。
传统学习型滤波器：为了克服这些问题，研究者们开发了基于深度学习的学习型滤波器。这些方法通过在大量数据上进行训练，直接学习从观测到状态的映射关系。然而，学习型滤波器的效果依赖于特定任务的数据集，导致其泛化能力很差。

一旦系统发生改变或需要将其应用于一个全新的系统，模型性能就会急剧下降，必须从头开始重新训练。

作为滤波问题的对偶问题，控制问题推动了通用控制模型（VLA模型）的开发，这些模型利用大语言模型（LLM）或视觉语言模型（VLM）的训练知识，既能提升特定控制任务的性能，又能具备跨多样化控制任务的泛化能力。

受通用控制模型成功启发，清华大学李升波教授课题组在NeurIPS 2025上提出一种通用滤波器——LLM-Filter，旨在通过与大语言模型实现恰当的模态对齐，利用LLM的先验知识和泛化能力来解决估计的泛化问题。

论文链接：https://arxiv.org/abs/2509.20051

该工作首次提出了通用大模型滤波方法（LLM-Filter），将状态空间对齐到大模型的词表语义空间，使得状态估计能够自然融入大模型的推理过程中。通过精心设计的提示语，LLM-Filter能够在面对未见过的系统上时实现零样本滤波，突破了传统滤波方法在泛化性上的局限。

LLM-Filter的关键技术

LLM滤波器的框架：

（1）观察嵌入：分段观测并嵌入到词表空间中。

（2）上下文推理：帮助 LLM-Filter 识别应用不同系统。

（3）状态映射：LLM的预测词表投影到状态空间中以获得最终估计。

观测嵌入

滑动窗口： 状态估计目标是基于所有可用观测值来估计状态。然而，直接输入不断增长的观测序列在实际中并不可行。受到「滑动估计器」和「大语言模型的上下文窗口」的启发，研究人员设计了一个固定长度为T的滑动窗口用于估计。输入观测定义为：

分割嵌入

为了将连续观测与离散的LLM token对齐，研究人员对输入观测进行分段并嵌入到LLM中。常见的分段方法是采用单序列展开，即直接将所有维度的数据展平。但这种方式会破坏变量间的固有关系，例如位置与速度之间的重要关联，而这种关系对位置估计至关重要。为保留这些相关性，研究人员采用基于分段长度L的多维分段方式：

其中每个分段，表示向下取整。如果T不能被L整除，则在末尾进行padding，以保证分段长度一致。为了充分利用LLM的预训练知识及其token转换特性，冻结其参数，并去掉原本针对语言token的嵌入和投影层。取而代之的是引入观测嵌入层：

上下文推理

传统的学习型滤波器仅依赖观测数据来估计真实状态，因此难以识别潜在系统动力学，泛化能力较差。为解决这一问题，研究人员利用LLM的上下文学习能力，提出一种新的提示策略SaP，帮助LLM-Filter灵活适应不同系统。

SaP由两部分组成：

任务指令（Task Instruction）：提供关键的上下文知识，不同领域可有所差异；

任务示例（Task Examples）：给出具体案例，帮助模型更好地理解任务。

在推理阶段，SaP文本CC会输入到预训练LLM的分词器中：

其中为分词后的上下文token数量。

状态映射

输入SaP提示与前一时刻观测的嵌入token，用于生成下一时刻的状态估计特征。为实现模态对齐，研究人员去掉LLM原本的嵌入层和投影层，仅使用核心层。具体来说，将SaP上下文token和观测嵌入直接输入核心层，得到输出嵌入：

随后，研究人员使用投影层

将输出嵌入投影到系统状态空间，得到最终估计：

最后，最小化真实状态与估计值的误差，以优化LLM-Filter的参数θ：

值得注意的是，为保留预训练知识并节省资源，研究人员选择冻结LLM参数，只更新ObsEmbedding(·)和StateProjection的参数。

实验结果

精度估计任务

研究人员在五个经典系统上评估LLM-Filter的基本姿态估计能力，包含四个非线性系统（Selkov，Oscillator，Hopf, Pendulum）和两个高维混沌系统（Lorenz96和VL20）。并与现有在线滤波和学习型滤波方法进行对比估计误差（RMSE）。

泛化估计任务

模型失配

研究人员在Selkov、Oscillator和Hopf系统上测试了LLM-Filter的模型失配情景，量化指标为观测协方差扩展比（OCER）。

跨系统泛化

在此实验中，研究人员评估了完全不同系统的泛化性能。具体而言，对于LLM-Filter以及学习型滤波器KalmanNet、MEstimator、RStateNet和ProTran，研究人员在一个系统上训练，并在另一个系统上测试性能。

空心柱表示「跨系统（cross-system）」 场景，而实心柱表示「训练和测试在同一系统」的情况。

例如，「Tracking → Pendulum」表示模型在Tracking系统上训练，并在Pendulum系统上进行评估

模型性质探索

在研究LLM-Filter在状态估计任务中的scaling行为时，通过使用不同参数规模的LLM作为骨干网络进行评估。

结果表明：随着模型参数增加，RMSE下降，估计精度提高，但训练时间也会增加。

超参数敏感性

研究人员验证了LLM-Filter对超参数的鲁棒性，包括窗口长度T、隐藏层维度，以及ObsEmbedding和StateProjection中MLP层数。

总结

受通用控制模型成功的启发，研究人员提出了一种通用大型滤波模型LLM-Filter，用于解决包括泛化任务在内的状态估计问题。借助提示信息和预训练知识，LLM-Filter在多种系统上表现优于专门训练的学习型滤波方法，并展现出出色的泛化能力。这些结果表明，LLM-Filter有潜力成为状态估计领域的基础模型。

参考文献：

[1] Liu, S., Cao, W., Liu, C., He, Z., Zhang, T., & Li, S. E. (2025). One Filters All: A Generalist Filter for State Estimation. arXiv preprint arXiv:2509.20051.

[2] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

内容中包含的图片若涉及版权问题，请及时与我们联系删除