GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs

2024年05月10日
  • 简介
    本文介绍了一种新的计算机视觉探索方法——Vision graph neural networks (ViG)。ViG的一个主要瓶颈是用于图形构建的低效k-nearest neighbor (KNN)操作。为了解决这个问题,本文提出了一种新的ViG设计方法——Dynamic Axial Graph Construction (DAGC),它比KNN更有效,因为它限制了在图像内考虑的图形连接数量。此外,本文提出了一种新的CNN-GNN架构——GreedyViG,它使用DAGC。广泛的实验表明,GreedyViG在图像分类、目标检测、实例分割和语义分割任务中的准确性、GMACs和参数方面都优于现有的ViG、CNN和ViT架构。最小的模型GreedyViG-S在ImageNet-1K上实现了81.1%的top-1准确率,比Vision GNN高2.9%,比Vision HyperGraph Neural Network (ViHGNN)高2.2%,并且GMACs更少,参数数量相似。最大的模型GreedyViG-B获得了83.9%的top-1准确率,比Vision GNN高0.2%,参数数量减少了66.6%,GMACs减少了69%。GreedyViG-B还获得了与ViHGNN相同的准确率,参数数量减少了67.3%,GMACs减少了71.3%。本文表明,混合CNN-GNN架构不仅为设计高效模型提供了一种新的途径,而且它们还能超过当前最先进的模型的性能。
  • 图表
  • 解决问题
    本论文旨在解决视觉图神经网络中KNN操作效率低下的问题,提出了一种新的动态轴向图构建方法(DAGC),并设计了一个新的CNN-GNN架构GreedyViG。
  • 关键思路
    论文提出了一种新的图构建方法DAGC,其效率比KNN更高。同时,设计了一个新的CNN-GNN架构GreedyViG,在图像分类、目标检测、实例分割和语义分割等任务上超越了现有的ViG、CNN和ViT架构。
  • 其它亮点
    论文设计了一系列实验,使用了多个数据集,并开源了代码。最小的模型GreedyViG-S在ImageNet-1K上的top-1准确率为81.1%,比Vision GNN和ViHGNN高2.9%和2.2%,参数和GMACs更少。最大的模型GreedyViG-B在ImageNet-1K上的top-1准确率为83.9%,比Vision GNN高0.2%,参数和GMACs分别减少了66.6%和69%,与ViHGNN的准确率相同,参数和GMACs分别减少了67.3%和71.3%。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如ViG、CNN和ViT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论