- 简介我们研究了机器视觉的一个基本方面:特征的测量,通过重新审视聚类,这是机器学习和数据分析中最经典的方法之一。现有的视觉特征提取器,包括ConvNets、ViTs和MLPs,将图像表示为矩形区域。虽然这种网格式范式很普遍,但它是建立在工程实践的基础上,缺乏对数据分布的显式建模。在这项工作中,我们提出了特征提取与聚类(FEC),这是一个概念上优雅但令人惊讶的特征提取解释性神经聚类框架,它将特征提取视为从数据中选择代表并自动捕获底层数据分布的过程。给定一张图像,FEC在将像素分组为单独的聚类来抽象代表和使用当前代表更新像素的深层特征之间交替。这样的迭代工作机制以几个神经层的形式实现,最终的代表可以用于下游任务。层间的聚类分配可以被人类查看和检查,使得FEC的前向过程完全透明,并赋予它有前途的特定解释性。对各种视觉识别模型和任务的广泛实验验证了FEC的有效性、通用性和解释性。我们期望这项工作将引发对当前事实上的网格式范式的重新思考。
-
- 图表
- 解决问题本论文旨在重新审视经典的聚类方法在机器学习和数据分析中的应用,特别是在图像特征提取方面。现有的视觉特征提取器通常将图像表示为矩形区域,这种基于工程实践的网格范式缺乏对数据分布的显式建模。本文提出了聚类特征提取(FEC)方法,将特征提取看作从数据中选择代表元素的过程,从而自动捕捉底层数据分布。
- 关键思路本文提出了一种新的聚类特征提取方法,将特征提取看作是从数据中选择代表元素的过程,从而自动捕捉底层数据分布。该方法通过几个神经层的迭代工作机制实现,可以用于各种视觉识别模型和任务。该方法的前向过程完全透明,具有很好的解释性。
- 其它亮点本文的亮点包括:1.提出了一种新的聚类特征提取方法,可以自动捕捉底层数据分布;2.通过几个神经层的迭代工作机制实现,具有很好的解释性;3.在各种视觉识别模型和任务上进行了广泛的实验验证,证明了该方法的有效性和通用性;4.开源了代码和使用的数据集,方便其他研究者使用和参考。
- 在这个领域中,最近的相关研究包括《End-to-End Object Detection with Transformers》、《MLP-Mixer: An all-MLP Architecture for Vision》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流