Towards flexible perception with visual memory

2024年08月15日
  • 简介
    训练神经网络是一项庞大的工程,类似于将知识刻在石头上:一旦完成了这个过程,编辑网络中的知识几乎是不可能的,因为所有信息都分布在网络的权重中。我们在这里探索了一种简单而引人入胜的替代方案,将深度神经网络的表征能力与数据库的灵活性相结合。通过将图像分类的任务分解为图像相似性(从预训练的嵌入中)和搜索(通过从知识数据库中快速检索最近邻),我们构建了一个简单而灵活的视觉记忆,具有以下关键能力:(1)能够灵活地跨越各个层次添加数据:从单个样本到整个类和十亿级数据;(2)通过取消学习和记忆修剪来删除数据;(3)可解释的决策机制,我们可以干预其行为。这些能力共同全面展示了显式视觉记忆的优势。我们希望它能为关于深度视觉模型中如何表示知识的讨论做出贡献——超越将其刻在“石头”权重中。
  • 图表
  • 解决问题
    论文试图解决如何在深度学习模型中灵活地添加、删除和控制知识的问题,以及如何将深度神经网络的表示能力与数据库的灵活性相结合。
  • 关键思路
    通过将图像分类任务分解为基于预训练嵌入的图像相似性和基于快速最近邻检索的搜索,构建一个简单而灵活的视觉记忆,可以在不同尺度上添加数据,并通过遗忘和记忆修剪删除数据。提出了一个可解释的决策机制,可以控制其行为。
  • 其它亮点
    论文提出的方法可以在不牺牲灵活性的情况下,将深度神经网络的表示能力与数据库的灵活性相结合,实现了可扩展的视觉记忆。实验结果表明,该方法在几个基准数据集上取得了与当前最先进方法相当的性能。论文还开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Learning to Remember More with Less Memorization》、《Dynamic Few-Shot Visual Learning without Forgetting》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论