- 简介不同模态的深度表征本质上是相互交织的。本文系统地分析了多种语义编码器与像素编码器的频谱特性。有趣的是,我们的研究发现了一个极具启发性却鲜有探索的现象:编码器的特征频谱与其功能角色之间存在密切对应关系——语义编码器主要捕获承载抽象语义的低频成分,而像素编码器则额外保留了传递细粒度细节的高频信息。这一启发性发现为理解编码器行为提供了统一的视角,将其与底层频谱结构联系起来。我们将此定义为“棱镜假说”(Prism Hypothesis),即每种数据模态都可以视为自然世界在共享特征频谱上的投影,正如光通过棱镜分解成不同波长的光谱一般。基于这一洞见,我们提出了统一自编码器(Unified Autoencoding, UAE),该模型通过一种创新的频带调制模块,实现了语义结构与像素细节的协同融合,使其能够在同一隐空间中无缝共存。在ImageNet和MS-COCO基准上的大量实验表明,我们的UAE模型能够有效地将语义抽象与像素级保真度统一到单一隐空间中,并取得了最先进的性能表现。
-
- 图表
- 解决问题论文试图解决多模态深度表示中语义信息与像素细节难以在统一潜在空间中有效共存的问题。当前大多数编码器要么侧重于抽象语义(如分类模型),要么保留细节但缺乏高层理解(如生成模型),导致在需要同时具备语义理解和精细重建的任务中表现受限。这一问题虽未被明确命名,但其本质是多模态表示学习中的长期挑战,而本文从频谱角度重新定义并系统化地提出,具有新颖视角。
- 关键思路提出‘棱镜假说’(Prism Hypothesis),认为不同编码器的特征频谱与其功能角色存在对应关系:语义编码器主要捕获低频成分(抽象含义),而像素编码器保留高频细节。基于此,设计统一自编码器(Unified Autoencoding, UAE),引入频率带调制模块,动态协调低频语义结构与高频像素细节,在单一潜在空间中实现二者融合。该思路首次将频谱分析作为理解编码器功能的统一框架,为多模态表示提供了可解释、可控制的新范式。
- 其它亮点实验设计严谨,在ImageNet和MS-COCO两大标准数据集上验证了UAE在图像重建、语义一致性与下游任务迁移中的优越性能;通过频谱可视化与消融研究证明了频率调制机制的有效性;工作开源可能性高,因涉及基础模型架构创新,极可能发布代码以推动社区应用;值得深入的方向包括将棱镜假说扩展至文本、音频等其他模态,以及探索频谱控制在可控生成与跨模态对齐中的潜力。
- 1. Emerging Properties in Self-Supervised Vision Transformers (2022) 2. Masked Autoencoders Are Scalable Vision Learners (2021) 3. BEiT: BERT Pre-Training of Image Transformers (2022) 4. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (2021) 5. Frequency Analysis of Deep Neural Networks (2023, NeurIPS)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流