VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

简介

本文探讨了大型语言模型(LLMs)在零样本异常检测中的潜力，以保证视觉导航的安全性。借助最先进的实时开放世界物体检测模型Yolo-World和专门的提示，所提出的框架可以识别包含任何可能障碍物的摄像头捕捉帧中的异常，然后生成简洁的、以音频形式呈现的描述，强调异常情况，协助在复杂情况下进行安全的视觉导航。此外，我们提出的框架利用了LLMs和开放词汇物体检测模型的优势，实现了动态场景切换，使用户可以平稳地从一个场景过渡到另一个场景，解决了传统视觉导航的局限性。此外，本文探讨了不同提示组件的性能贡献，为未来视觉可访问性的改进提供了展望，并为LLMs在视频异常检测和视觉语言理解方面铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨大型语言模型（LLMs）在零样本异常检测中的潜力，以实现安全的视觉导航。同时解决传统视觉导航的场景切换问题。
关键思路

论文提出了一种基于LLMs和实时开放世界物体检测模型Yolo-World的框架，通过特定提示识别摄像头捕捉的帧中的异常，并生成简明的语音描述，帮助用户在复杂环境下进行安全的视觉导航。同时，该框架还利用了LLMs和开放词汇物体检测模型的优势，实现了动态场景切换。
其它亮点

论文探讨了不同提示组件的性能贡献，为视觉辅助性提供了展望，并为LLMs在视频异常检测和视觉语言理解方面铺平了道路。
相关研究

最近的相关研究包括《Zero-shot anomaly detection via generative adversarial networks》、《Zero-shot object detection》等。

VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

提问交流

提问交流