Silhouette-based Gait Foundation Model

向作者提问

NEW

简介

步态模式在人体识别和健康数据分析中起着至关重要的作用，然而当前的研究进展仍受限于规模小、设计狭窄的模型，难以实现有效扩展或泛化。构建一个统一的步态基础模型需要克服两个长期存在的难题：（a）可扩展性——为何步态模型在历史上始终无法遵循模型缩放规律？（b）泛化能力——能否设计出一个模型，统一应对传统上各自独立研究的多种步态任务？我们提出了FoundationGait，这是首个可扩展的、基于自监督预训练的步态理解框架。其最大版本包含近1.3亿参数，并在12个公开的步态数据集上进行了预训练，涵盖超过200万段行走序列。大量实验表明，无论是否进行微调，FoundationGait在广泛的步态数据集、不同条件、多种任务（如人体识别、脊柱侧弯筛查、抑郁预测和属性估计）乃至不同输入模态下均表现出强大的鲁棒性。值得注意的是，该模型在具有挑战性的野外场景Gait3D数据集（1,000名测试对象）上实现了48.0%的零样本rank-1准确率，在实验室环境下规模最大的OU-MVLP数据集（5,000多名测试对象）上达到64.5%，树立了鲁棒步态识别的新里程碑。相关代码与模型见：https://github.com/ShiqiYu/OpenGait。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前步态识别模型因规模小、设计狭窄而导致的可扩展性和泛化能力差的问题。具体来说，现有模型难以遵循缩放定律（scaling laws），且通常只能针对单一任务设计，无法统一处理多样化的步态任务（如身份识别、疾病筛查等）。这在一定程度上限制了步态分析在真实世界中的广泛应用。该问题虽非全新，但构建一个真正可扩展、可泛化的统一基础模型在步态领域尚属首次系统性探索。
关键思路

提出FoundationGait——首个可扩展的自监督预训练步态基础模型框架。其核心思想是通过大规模数据和模型缩放，在统一架构下学习通用步态表征。与以往小模型、任务专用的设计不同，该模型采用近1.3亿参数的大规模结构，并在超过200万步行序列上进行自监督预训练，从而实现跨任务、跨数据集、跨模态的强泛化能力，验证了缩放定律在步态领域的可行性。
其它亮点

模型在多个下游任务中表现优异，包括零样本场景：在野外数据集Gait3D上实现48.0%的零样本rank-1准确率，在实验室大规模数据集OU-MVLP上达到64.5%。实验覆盖人类识别、脊柱侧弯筛查、抑郁预测和属性估计等多种任务，验证了其通用性。模型支持多种输入模态，展现出强大的适应能力。项目已开源代码和模型，地址为 https://github.com/ShiqiYu/OpenGait，极大促进后续研究。未来可进一步探索更大数据量下的性能边界、跨文化/人群的偏移问题，以及临床场景中的部署潜力。
相关研究

1. 'ViT-GAIT: Vision Transformer for Gait Recognition' —— 探索Transformer在步态识别中的应用 2. 'MMGait: Multi-Modal Gait Recognition with Inertial Sensors and Video' —— 多模态步态融合研究 3. 'Self-Gait: Self-Supervised Learning for Person Re-identification via Gait' —— 自监督步态学习的早期尝试 4. 'GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition' —— 经典的基于集合建模的步态方法 5. 'Temporal Modeling on Dynamic Manifolds for Gait Recognition' —— 强调时序建模在步态中的作用

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问