新智元报道  

编辑:LRST
【新智元导读】清华大学李升波教授团队在NeurIPS 2025提出LLM-Filter通用滤波器,创新性地将状态估计融入大语言模型的推理框架,借助其先验知识与泛化能力,解决传统方法在新系统上泛化性差的问题。实验表明,该模型在未见过的系统中能实现零样本状态估计,表现优于现有学习型滤波器,有望成为科学与工程领域的基础模型。

状态估计(State Estimation)是现代科学与工程中的核心问题之一。

其目标是在存在噪声和不确定性的观测数据下,准确推断出动态系统(如机器人、飞行器或气象系统)的真实内部状态(例如位置、速度、温度等)。

长期以来,状态估计方法主要分为两大类:

  1. 经典贝叶斯滤波器状态估计的最全面的框架是贝叶斯滤波,它通过迭代预测步和更新步来在线估计状态。流行的在线贝叶斯滤波器可以分为高斯滤波器和粒子滤波器。在高维非高斯系统中,高斯滤波器往往会产生近似误差,而粒子滤波器受其大量计算需求的限制了应用场景。

  2. 传统学习型滤波器为了克服这些问题,研究者们开发了基于深度学习的学习型滤波器 。这些方法通过在大量数据上进行训练,直接学习从观测到状态的映射关系 。然而,学习型滤波器的效果依赖于特定任务的数据集,导致其泛化能力很差 。

一旦系统发生改变或需要将其应用于一个全新的系统,模型性能就会急剧下降,必须从头开始重新训练。

作为滤波问题的对偶问题,控制问题推动了通用控制模型(VLA模型)的开发,这些模型利用大语言模型(LLM)或视觉语言模型(VLM)的训练知识,既能提升特定控制任务的性能,又能具备跨多样化控制任务的泛化能力。

受通用控制模型成功启发,清华大学李升波教授课题组在NeurIPS 2025上提出一种通用滤波器——LLM-Filter,旨在通过与大语言模型实现恰当的模态对齐,利用LLM的先验知识和泛化能力来解决估计的泛化问题。

论文链接:https://arxiv.org/abs/2509.20051

该工作首次提出了通用大模型滤波方法(LLM-Filter),将状态空间对齐到大模型的词表语义空间,使得状态估计能够自然融入大模型的推理过程中。通过精心设计的提示语,LLM-Filter能够在面对未见过的系统上时实现零样本滤波,突破了传统滤波方法在泛化性上的局限。


LLM-Filter的关键技术


LLM滤波器的框架:

(1)观察嵌入:分段观测并嵌入到词表空间中。

(2)上下文推理:帮助 LLM-Filter 识别应用不同系统。

(3)状态映射:LLM的预测词表投影到状态空间中以获得最终估计。

观测嵌入


滑动窗口: 状态估计目标是基于所有可用观测值来估计状态然而,直接输入不断增长的观测序列在实际中并不可行。受到「滑动估计器」和「大语言模型的上下文窗口」的启发,研究人员设计了一个固定长度为T的滑动窗口用于估计。 输入观测定义为:

分割嵌入

为了将连续观测与离散的LLM token对齐,研究人员对输入观测进行分段并嵌入到LLM中。常见的分段方法是采用单序列展开,即直接将所有维度的数据展平。但这种方式会破坏变量间的固有关系,例如位置与速度之间的重要关联,而这种关系对位置估计至关重要。为保留这些相关性,研究人员采用基于分段长度L的多维分段方式:

其中每个分段表示向下取整。如果T不能被L整除,则在末尾进行padding,以保证分段长度一致。为了充分利用LLM的预训练知识及其token转换特性,冻结其参数,并去掉原本针对语言token的嵌入和投影层。取而代之的是引入观测嵌入层:

上下文推理


传统的学习型滤波器仅依赖观测数据来估计真实状态,因此难以识别潜在系统动力学,泛化能力较差。为解决这一问题,研究人员利用LLM的上下文学习能力,提出一种新的提示策略SaP,帮助LLM-Filter灵活适应不同系统。

SaP由两部分组成:

任务指令(Task Instruction)提供关键的上下文知识,不同领域可有所差异;

任务示例(Task Examples)给出具体案例,帮助模型更好地理解任务。

在推理阶段,SaP文本CC会输入到预训练LLM的分词器中:

其中为分词后的上下文token数量。

状态映射


输入SaP提示与前一时刻观测的嵌入token,用于生成下一时刻的状态估计特征。为实现模态对齐,研究人员去掉LLM原本的嵌入层和投影层,仅使用核心层。具体来说,将SaP上下文token和观测嵌入直接输入核心层,得到输出嵌入:

随后,研究人员使用投影层

将输出嵌入投影到系统状态空间,得到最终估计:

最后,最小化真实状态与估计值的误差,以优化LLM-Filter的参数θ:

值得注意的是,为保留预训练知识并节省资源,研究人员选择冻结LLM参数,只更新ObsEmbedding(·)和StateProjection的参数。


实验结果


精度估计任务


研究人员在五个经典系统上评估LLM-Filter的基本姿态估计能力,包含四个非线性系统(Selkov,Oscillator,Hopf, Pendulum)和两个高维混沌系统(Lorenz96和VL20)。并与现有在线滤波和学习型滤波方法进行对比估计误差(RMSE)。

泛化估计任务

模型失配


研究人员在SelkovOscillatorHopf系统上测试了LLM-Filter的模型失配情景,量化指标为观测协方差扩展比(OCER)

跨系统泛化


在此实验中,研究人员评估了完全不同系统的泛化性能。 具体而言,对于LLM-Filter以及学习型滤波器KalmanNet、MEstimator、RStateNet和ProTran,研究人员在一个系统上训练,并在另一个系统上测试性能。

空心柱表示「跨系统(cross-system)」 场景,而实心柱表示「训练和测试在同一系统」的情况。

例如,「Tracking → Pendulum」表示模型在Tracking系统上训练,并在Pendulum系统上进行评估

模型性质探索


在研究LLM-Filter在状态估计任务中的scaling行为时,通过使用不同参数规模的LLM作为骨干网络进行评估。

结果表明:随着模型参数增加,RMSE下降,估计精度提高,但训练时间也会增加

超参数敏感性


研究人员验证了LLM-Filter对超参数的鲁棒性,包括窗口长度T隐藏层维度,以及ObsEmbeddingStateProjection中MLP层数


总结


受通用控制模型成功的启发,研究人员提出了一种通用大型滤波模型LLM-Filter,用于解决包括泛化任务在内的状态估计问题。借助提示信息和预训练知识,LLM-Filter在多种系统上表现优于专门训练的学习型滤波方法,并展现出出色的泛化能力。这些结果表明,LLM-Filter有潜力成为状态估计领域的基础模型。

参考文献:
[1] Liu, S., Cao, W., Liu, C., He, Z., Zhang, T., & Li, S. E. (2025). One Filters All: A Generalist Filter for State Estimation. arXiv preprint arXiv:2509.20051. 
[2] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.


内容中包含的图片若涉及版权问题,请及时与我们联系删除