Implicit Neural Representation Facilitates Unified Universal Vision Encoding

向作者提问

NEW

简介

用于图像表示学习的模型通常专为识别或生成任务之一而设计。各种形式的对比学习有助于模型将图像转换为适用于分类、检测和分割的嵌入表示。另一方面，模型也可通过像素级、感知级和对抗性损失来训练以重建图像，从而学习到适用于图像生成的潜在空间。我们旨在融合这两个方向，提出一种前所未有的模型，能够同时学习既适用于识别又适用于生成的表示。我们将该模型训练为一个隐式神经表示（INR）的超网络，使其学会将图像映射为用于快速且精确重建的网络权重。我们进一步将该INR超网络与知识蒸馏相结合，以提升其泛化能力和性能表现。除了新颖的训练设计之外，该模型还学习到了一种前所未有的高度压缩的嵌入空间，在多种视觉任务中表现出色。整体模型在图像表示学习方面可与当前最先进的方法相媲美，同时凭借其高质量的微型嵌入实现了强大的生成能力。代码地址为 https://github.com/tiktok/huvr。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决图像表示学习中识别与生成任务之间的割裂问题。传统模型通常只能在识别（如分类、检测）或生成（如图像重建、生成）中擅长其一，难以同时兼顾。该论文探索是否可以设计一种统一的模型，学习到既有利于识别任务又能支持高质量生成的紧凑嵌入表示。这是一个重要且较新的问题，尤其是在追求通用视觉模型的背景下。
关键思路

提出一种基于隐式神经表示（INR）的超网络架构，将输入图像映射为神经网络权重，从而实现快速、精确的图像重建；同时通过知识蒸馏增强泛化能力。关键创新在于将超网络用于双向表示学习——编码图像为极小嵌入，解码时还原细节，使同一嵌入同时服务于识别与生成任务，打破了传统方法的范式分割。
其它亮点

模型实现了前所未有的压缩嵌入空间（极小尺寸），却在多种视觉任务上保持卓越性能；支持高质量图像生成与重建，验证了嵌入的信息丰富性；实验设计全面，涵盖分类、重建、生成等多任务评估；使用了主流图像数据集（如ImageNet、CIFAR等）进行验证；代码已开源（https://github.com/tiktok/huvr），增强了可复现性；未来可深入研究方向包括扩展至视频表示、结合扩散模型、以及在低带宽通信中的应用。
相关研究

1. Masked Autoencoders Are Scalable Vision Learners 2. Emerging Properties in Self-Supervised Vision Transformers 3. StyleGAN: Generative Adversarial Networks for Style and Content Manipulation 4. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 5. Cross-Modal Contrastive Learning of Visual Representations

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问