Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics

简介

边缘计算的出现使得实时智能视频分析成为可能。以前的研究基于传统的模型架构（如CNN、RNN等），采用各种策略来过滤非感兴趣区域的内容，以最小化带宽和计算消耗，但在恶劣环境下表现较差。最近，基于Transformer的视觉基础模型由于其惊人的泛化能力，在恶劣环境下表现出色。然而，它们需要大量的计算能力，限制了它们在实时智能视频分析中的应用。在本文中，我们发现像Vision Transformer（ViT）这样的视觉基础模型也有专门用于视频分析的加速机制。为此，我们介绍了Arena，这是一个基于ViT的端到端边缘辅助视频推断加速系统。我们利用了ViT的能力，通过仅卸载和馈送感兴趣区域的补丁到下游模型来进行令牌修剪加速。此外，我们采用基于概率的补丁采样，为确定对象在后续帧中可能出现的位置提供了一种简单而有效的机制。通过对公共数据集的广泛评估，我们的发现表明，Arena可以将推断速度平均提高1.58倍和1.82倍，同时仅消耗54%和34%的带宽，而且推断精度高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决实时智能视频分析中传统模型架构（如CNN、RNN等）在不良环境下性能较差的问题，提出了基于Transformer的视觉基础模型，但这些模型需要大量计算资源，限制了它们在实时智能视频分析中的应用。因此，论文提出了一种基于ViT的边缘辅助视频推理加速系统Arena，以加速视频推理。
关键思路

Arena系统利用ViT的能力，通过仅卸载和馈送感兴趣区域的补丁来加速推理，同时采用基于概率的补丁采样，提供了一种确定对象在后续帧中可能位置的简单而有效的机制。
其它亮点

论文使用公共数据集进行了广泛的评估，发现Arena可以将推理速度提高高达1.58倍和1.82倍，同时仅消耗54％和34％的带宽，而且推理精度高。
相关研究

最近的相关研究包括Transformer模型的应用和视频分析加速。

Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics

提问交流

提问交流