实时三维重建旨在从视频流中恢复三维信息(例如相机位姿和点云),这要求模型具备几何精度高、时间一致性好以及计算效率高的特点。受同步定位与建图(SLAM)原理启发,我们提出了LingBot-Map——一种面向流式数据场景重建的前馈式三维基础模型,其核心架构为几何上下文变换器(Geometric Context Transformer, GCT)。LingBot-Map的一个关键特征在于其精心设计的注意力机制:该机制融合了锚点上下文(anchor context)、位姿参考窗口(pose-reference window)和轨迹记忆(trajectory memory)三部分,分别用于解决坐标系对齐、稠密几何线索建模以及长时程漂移校正等核心问题。这一设计在保持流式状态高度紧凑的同时,仍能保留丰富的几何上下文信息,从而实现在长达一万帧以上的序列上,对分辨率为518×378的输入稳定高效地进行推理,帧率约为20 FPS。我们在多种主流基准数据集上开展了大量实验评估,结果表明,本方法在性能上显著优于现有的各类实时流式重建方法及基于迭代优化的传统方法。