1.1.1 背景和动机

提取特征的方式很大程度上取决于如何解释图像。

在方法上，ConvNets 将图像概念化为一组排列成矩形形式的像素，并以滑动窗口的方式使用卷积提取局部特征。卷积网络非常高效的原因是得益于一些重要的归纳偏置 (inductive bias)，如局部性 (locality) 和平移等变性 (translation equivariance)。视觉 Transformer 将图像视为一块块组成的序列，并使用全局注意力操作自适应地融合来自每个 Patch 的信息。这样，模型中固有的归纳偏置被抛弃，并获得了令人满意的结果。

最近，有些工作试图把卷积和注意力机制结合在一起，比如：CMT[1]，CoAtNet[2]等，这些方法在网格中扫描图像 (通过卷积，获得局部性的先验)，同时探索 Patch 之间的相互关系 (通过注意力，获得全局建模的能力)。虽然它们继承了两者的优点，但其见解和知识仍然局限于 ConvNets 和 ViT。

本文作者研究特征提取器 (Feature Extractor)，但是视角不仅仅局限在 ConvNets 和 ViT 上。虽然卷积和注意力机制已经被证明了可以用来构建高性能视觉架构，但它们并不是唯一的选择。其他的选择比如基于 MLP 的模型 ResMLP[3]，和基于 GNN 的模型 ViG[4]。因此，作者期待在本文中探索一种新的特征提取范式，它可以提供一些新颖的见解，而不是增量式的性能改进。

在本文中，作者回顾了视觉表征的一类经典方法：聚类 (Clustering) 。总体而言，作者将图像视为一组点集，并将所有点分组为 Clusters。在每个类中，我们将这些点聚集成一个 center，然后自适应地将中心点分配给所有的点。作者将这种范式称之为上下文聚类 (Context Cluster) 。

图1：上下文聚类 (context cluster)

如上图1所示，具体而言，作者将每个像素视为一个具有颜色和位置信息的5维数据点。作者将图像转换为一组点云，并利用点云分析的方法用于图像视觉表征。这连接了图像和点云的视觉表征，显示出了强大的泛化性能，也有利于未来的多模态研究。对于一组点，作者引入了一种简化的聚类方法[5]，将点分组为一个个类。

作者将基于上下文聚类 (context cluster) 得到的 Deep Model 称之为 Context Clusters (CoCs) 。模型的设计也继承了 ViT 的层次表示和 MetaFormer 的框架。通过将图像视为点的集合，CoC 对不同数据域 (如点云、RGBD 图像等) 具有很强的泛化能力，和比较令人满意的可解释性。尽管 CoC 不以性能为目标，但作者发现在几个基准测试中，它仍然达到了与 ConvNets 或 ViTs 相同甚至更好的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICLR 2023 超高分工作｜把图片视为点集，简单聚类算法实现强悍视觉架构

1.1.1 背景和动机

评论列表

评论