7月24日上午,第十九期 AIR-SUN 少年科学家论坛如期举行。本次活动有幸邀请到卡耐基梅隆大学访问学生周思帆,为 AIR-SUN 的老师和同学们做了题为《Tartan IMU:一种用于机器人惯性位置估计的轻量化基础模型》的精彩报告。

讲者介绍

周思帆,卡耐基梅隆大学(CMU)访问学生,研究方向为3D计算机视觉与机器人定位,他在CVPR,ICLR,ICRA,IROS,IJCV等计算机视觉与人工智能顶会和期刊发表过多篇论文,并获得ICLR 2024和ICRA 2025 student travel award,同时他也是NeurIPS,CVPR,ICCV,ICML等顶会审稿人。

报告内容


在本次报告中,周思帆重点分享了他在 CVPR 2025 的最新研究成果。本项工作聚焦于突破现有 Learning based 的 IMU 惯性定位泛化能力差、易过拟合的瓶颈,提出了Tartan IMU这一基础模型,旨在实现适用于多种机器人平台的通用惯性定位。团队围绕 IMU 位姿估计的关键挑战,展开了三项核心创新:(1)预训练基础模型: 研究首先构建了一个具备强泛化能力的预训练模型,利用超过 100 小时、覆盖多个平台的数据,系统性地学习通用运动知识,为后续任务迁移打下坚实基础。(2)低秩适应(LoRA):为让模型能够快速适应新任务,团队引入了轻量化的 LoRA 技术。该方法仅需 1.1M 的可训练参数,便能实现高效的正向迁移,大幅提升模型在未知场景中的适应能力。(3)在线测试时自适应:为支持实际部署需求,研究还提出了“边操作边学习”的在线自适应策略,使模型在运行过程中可持续调整与学习。这一机制打破了训练与测试的边界,支持 200 FPS 的实时推理与更新,真正实现了高效、灵活的在场景中进化。

背景与动机

在雷达或相机失效的极端环境下(如地下洞穴、长走廊等),IMU 传感器依然能够实现精准的位置感知。其优势在于:无需依赖外部环境、输出频率高(100–500Hz)、轻巧低功耗,并且在短时间内能提供较高精度的测量结果。

然而,现有 IMU 定位方法仍面临两大痛点:

  • 泛化性不足:大多模型仅针对特定平台(如手持设备、机械狗、轮式机器人)设计,难以适用于其他机器人形态。

  • 适应性有限:面对全新平台的运动模式时,模型往往无法快速调整并保持高精度。

为此,我们的目标是打造一个跨平台、跨环境的 IMU 基础模型(foundation model),能够灵活适应不同场景与设备,实现真正的通用惯性定位。

模型架构与训练策略


本研究提出的 IMU 基础模型(IMU Foundation Model) 采用三阶段设计:

  • 预训练阶段:学习多平台的通用运动模式

  • 微调阶段:通过 LoRA 轻量化适配新环境/平台

  • 在线部署阶段:实时动态调整模型记忆,实现边操作边学习


预训练阶段:多平台通用运动建模

模型采用轻量级 ResNet + LSTM 架构,联合捕获 IMU 数据的时空特征。同时设计了一个 多任务头(Multi-Head)结构,将来自不同机器人平台的运动特征映射到高维表示空间,支持差异化学习与泛化。

训练数据来自社区公开的超 100 小时高质量 IMU 记录,涵盖轮式机器人、无人机、手持设备、四足机器人等多种平台。实验发现:多平台联合训练显著提升模型性能,呈现出类似 scaling law 的增长趋势 —— 数据越多、平台越丰富,模型越强大。

微调阶段:快速适应新平台

为降低模型在新平台上的适配成本,引入了 LoRA技术。该方法仅需 1.1M 可训练参数,即可在保持预训练知识的基础上,实现高效正向迁移。即使是之前从未见过的平台,模型也能在极小开销下完成快速调整,展现出极强的扩展性与实用性。

在线部署阶段:边操作,边学习

在实际机器人部署中,模型进一步结合 SLAM 框架,支持 Online Test-Time Adaptation。模型在 200 FPS 实时推理的同时,能够动态更新其运动模式记忆,实现真正的“边操作、边学习”。

实验结果

研究围绕模型的泛化性、迁移能力与在线适应性能进行了系统评估。结果表明,TartanIMU 作为一个通用 IMU 基础模型,在多个平台和任务上均展现出领先性能。

泛化能力:

作者将 TartanIMU 与多个特定领域的专用模型进行了对比,评估其在不同机器人平台上的表现,包括轮式机器人、手持设备、人形平台、四足机器人以及无人机等。

结果表明:TartanIMU 在平均轨迹误差(ATE)和旋转误差(T-RTE)上分别提升了 35.5% 和 41.0%,显著优于各类专用模型。

如下图所示,TartanIMU 在多个平台上的轨迹预测更为稳定,展现出良好的跨场景泛化能力。

迁移能力:

在“从已知到未知”的任务迁移中,TartanIMU 同样展现出卓越表现。研究团队将模型从 SubT 数据集(源域) 微调至 TartanDrive 数据集(目标域),并与当前SoTA方法进行了对比。结果发现:TartanIMU 仅用 67% 的迭代次数即可完成适应,训练效率显著更高。

模型不仅迁移速度快,而且在新场景中的表现更加稳定可靠,为实际部署提供了强有力的支持。

在线适应能力:

在模拟真实机器人运行环境中,研究进一步验证了模型的在线自适应能力。如下图所示,模型在 105 秒内即可完成从 SubT UGV 到 TartanDrive 任务的适应,运行过程中系统会自动将采集到的轨迹数据分类(静止、前进、左转、右转),并进行动态缓存与再分布,使得数据更均匀、学习更高效。

总结

本研究面向复杂多变的机器人应用场景,提出了通用惯性定位基础模型 TartanIMU,在模型泛化性、迁移能力与在线适应性三个关键维度上实现突破。通过引入跨平台预训练、轻量化适配(LoRA)与在线自学习机制。该工作为构建通用、可迁移、可持续学习的惯性感知系统提供了新范式,也为未来多模态感知、机器人自适应导航等方向提供了坚实基础。

文稿撰写 / 李文毅
排版编辑 / 许少聪
校对责编 / 赵昊


内容中包含的图片若涉及版权问题,请及时与我们联系删除