- 简介用于图像表示学习的模型通常专为识别或生成任务之一而设计。各种形式的对比学习有助于模型将图像转换为适用于分类、检测和分割的嵌入表示。另一方面,模型也可通过像素级、感知级和对抗性损失来训练以重建图像,从而学习到适用于图像生成的潜在空间。我们旨在融合这两个方向,提出一种前所未有的模型,能够同时学习既适用于识别又适用于生成的表示。我们将该模型训练为一个隐式神经表示(INR)的超网络,使其学会将图像映射为用于快速且精确重建的网络权重。我们进一步将该INR超网络与知识蒸馏相结合,以提升其泛化能力和性能表现。除了新颖的训练设计之外,该模型还学习到了一种前所未有的高度压缩的嵌入空间,在多种视觉任务中表现出色。整体模型在图像表示学习方面可与当前最先进的方法相媲美,同时凭借其高质量的微型嵌入实现了强大的生成能力。代码地址为 https://github.com/tiktok/huvr。
-
- 图表
- 解决问题论文试图解决图像表示学习中识别与生成任务之间的割裂问题。传统模型通常只能在识别(如分类、检测)或生成(如图像重建、生成)中擅长其一,难以同时兼顾。该论文探索是否可以设计一种统一的模型,学习到既有利于识别任务又能支持高质量生成的紧凑嵌入表示。这是一个重要且较新的问题,尤其是在追求通用视觉模型的背景下。
- 关键思路提出一种基于隐式神经表示(INR)的超网络架构,将输入图像映射为神经网络权重,从而实现快速、精确的图像重建;同时通过知识蒸馏增强泛化能力。关键创新在于将超网络用于双向表示学习——编码图像为极小嵌入,解码时还原细节,使同一嵌入同时服务于识别与生成任务,打破了传统方法的范式分割。
- 其它亮点模型实现了前所未有的压缩嵌入空间(极小尺寸),却在多种视觉任务上保持卓越性能;支持高质量图像生成与重建,验证了嵌入的信息丰富性;实验设计全面,涵盖分类、重建、生成等多任务评估;使用了主流图像数据集(如ImageNet、CIFAR等)进行验证;代码已开源(https://github.com/tiktok/huvr),增强了可复现性;未来可深入研究方向包括扩展至视频表示、结合扩散模型、以及在低带宽通信中的应用。
- 1. Masked Autoencoders Are Scalable Vision Learners 2. Emerging Properties in Self-Supervised Vision Transformers 3. StyleGAN: Generative Adversarial Networks for Style and Content Manipulation 4. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 5. Cross-Modal Contrastive Learning of Visual Representations
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流