- 简介步态模式在人体识别和健康数据分析中起着至关重要的作用,然而当前的研究进展仍受限于规模小、设计狭窄的模型,难以实现有效扩展或泛化。构建一个统一的步态基础模型需要克服两个长期存在的难题:(a)可扩展性——为何步态模型在历史上始终无法遵循模型缩放规律?(b)泛化能力——能否设计出一个模型,统一应对传统上各自独立研究的多种步态任务?我们提出了FoundationGait,这是首个可扩展的、基于自监督预训练的步态理解框架。其最大版本包含近1.3亿参数,并在12个公开的步态数据集上进行了预训练,涵盖超过200万段行走序列。大量实验表明,无论是否进行微调,FoundationGait在广泛的步态数据集、不同条件、多种任务(如人体识别、脊柱侧弯筛查、抑郁预测和属性估计)乃至不同输入模态下均表现出强大的鲁棒性。值得注意的是,该模型在具有挑战性的野外场景Gait3D数据集(1,000名测试对象)上实现了48.0%的零样本rank-1准确率,在实验室环境下规模最大的OU-MVLP数据集(5,000多名测试对象)上达到64.5%,树立了鲁棒步态识别的新里程碑。相关代码与模型见:https://github.com/ShiqiYu/OpenGait。
-
- 图表
- 解决问题论文试图解决当前步态识别模型因规模小、设计狭窄而导致的可扩展性和泛化能力差的问题。具体来说,现有模型难以遵循缩放定律(scaling laws),且通常只能针对单一任务设计,无法统一处理多样化的步态任务(如身份识别、疾病筛查等)。这在一定程度上限制了步态分析在真实世界中的广泛应用。该问题虽非全新,但构建一个真正可扩展、可泛化的统一基础模型在步态领域尚属首次系统性探索。
- 关键思路提出FoundationGait——首个可扩展的自监督预训练步态基础模型框架。其核心思想是通过大规模数据和模型缩放,在统一架构下学习通用步态表征。与以往小模型、任务专用的设计不同,该模型采用近1.3亿参数的大规模结构,并在超过200万步行序列上进行自监督预训练,从而实现跨任务、跨数据集、跨模态的强泛化能力,验证了缩放定律在步态领域的可行性。
- 其它亮点模型在多个下游任务中表现优异,包括零样本场景:在野外数据集Gait3D上实现48.0%的零样本rank-1准确率,在实验室大规模数据集OU-MVLP上达到64.5%。实验覆盖人类识别、脊柱侧弯筛查、抑郁预测和属性估计等多种任务,验证了其通用性。模型支持多种输入模态,展现出强大的适应能力。项目已开源代码和模型,地址为 https://github.com/ShiqiYu/OpenGait,极大促进后续研究。未来可进一步探索更大数据量下的性能边界、跨文化/人群的偏移问题,以及临床场景中的部署潜力。
- 1. 'ViT-GAIT: Vision Transformer for Gait Recognition' —— 探索Transformer在步态识别中的应用 2. 'MMGait: Multi-Modal Gait Recognition with Inertial Sensors and Video' —— 多模态步态融合研究 3. 'Self-Gait: Self-Supervised Learning for Person Re-identification via Gait' —— 自监督步态学习的早期尝试 4. 'GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition' —— 经典的基于集合建模的步态方法 5. 'Temporal Modeling on Dynamic Manifolds for Gait Recognition' —— 强调时序建模在步态中的作用
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流