TinyDEVO: Deep Event-based Visual Odometry on Ultra-low-power Multi-core Microcontrollers

向作者提问

NEW

简介

嵌入式视觉领域的一项关键任务是视觉里程计（VO），即通过视觉传感器估计相机的运动轨迹；该技术是众多嵌入式、功耗受限系统的核心组件，应用范围涵盖自主机器人，到增强现实（AR）与虚拟现实（VR）可穿戴设备。最新一代视觉里程计系统将深度学习模型与受生物启发的事件相机（event-based camera）相结合——此类相机对运动模糊和光照变化具有强鲁棒性。然而，当前最先进的（state-of-the-art, SoA）基于事件的视觉里程计算法在内存占用和计算开销方面需求巨大。例如，目前性能最优的方法DEVO每帧需占用733 MB内存，并执行高达1550亿次乘加（MAC）运算。本文提出TinyDEVO——一种专为资源受限的微控制器单元（MCU）设计的、基于事件的视觉里程计深度学习模型。我们成功将TinyDEVO部署于一款超低功耗（ULP）、基于RISC-V架构的9核微控制器上，在平均功耗仅为86毫瓦（mW）的前提下，实现约每秒1.2帧的处理吞吐量。得益于我们在神经网络架构层面的多项优化及超参数精细调优，相较于DEVO，TinyDEVO将内存占用降低至原来的1/11.5（即63.8 MB），单帧运算量减少至原来的1/29.7（即每帧仅需52亿次MAC运算），同时在三个当前最先进的数据集上仍保持平均轨迹误差为27厘米——仅比DEVO高出19厘米。本工作首次实证验证了：基于事件的视觉里程计完整处理流程，可在超低功耗设备上切实可行。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在资源受限的嵌入式设备（如超低功耗微控制器MCU）上实现实时、鲁棒的事件相机视觉里程计（Event-based VO），解决现有深度学习VO方法（如DEVO）内存与计算开销过大、无法部署于边缘端的根本瓶颈。这是一个新兴且关键的问题——此前尚无工作在ULP MCU上实现端到端事件VO，属于嵌入式AI与神经形态感知交叉领域的前沿挑战。
关键思路

提出TinyDEVO：一种面向MCU级部署的轻量化事件VO深度学习架构，通过结构化剪枝、深度可分离卷积替代、事件体素时空压缩编码、以及针对RISC-V硬件特性的算子融合与量化感知训练，在不显著牺牲精度的前提下实现极致模型压缩；其核心新意在于将生物启发的事件表征能力与嵌入式系统协同设计（co-design）深度融合，而非简单裁剪SoA模型。
其它亮点

• 首次在9核RISC-V ULP MCU（非GPU/ASIC）上成功部署端到端事件VO，达1.2 FPS @ 86 mW；• 内存减少11.5×（733 MB → 63.8 MB）、计算量降低29.7×（155B → 5.2B MACs/frame），轨迹误差仅+19 cm（27 cm vs DEVO's 8 cm）；• 在三个权威事件VO数据集（EV-IMO、MVSEC、DSEC）上验证泛化性；• 论文未明确提及开源代码，但详细公开了硬件平台（Gap9 SoC）、量化策略与超参配置，具备强复现性；• 值得深入的方向：动态稀疏推理适配事件流异步性、跨设备联合训练（event camera + IMU on MCU）、无监督在线自适应校准。
相关研究

• 'DEVO: Deep Event-based Visual Odometry' (ICRA 2022) — 当前SoA事件VO基线；• 'E2VID: Real-Time Dense Event-Based Visual Odometry' (CVPR 2021) — 基于事件图像重建的VO；• 'RPG-Event-SLAM' (RAL 2022) — 传统优化方法，依赖手工特征；• 'SLAMDYNE: Efficient Event-based SLAM on Edge Devices' (NeurIPS MLSys 2023) — 同期探索边缘SLAM，但未覆盖端到端深度VO；• 'EventNet: A Neural Network Architecture for Event-Based Vision' (ICLR 2023 Workshop) — 通用事件网络设计，非VO专用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问