Understanding Degradation with Vision Language Model

向作者提问

NEW

简介

理解图像视觉退化现象是计算机视觉领域中一个至关重要却又极具挑战性的问题。尽管近期的视觉-语言模型（VLMs）在定性描述方面表现出色，但在理解图像退化背后所依赖的参数化物理机制方面往往力不从心。本文将退化理解重新定义为一项层次化的结构化预测任务，要求模型同步估计退化类型、对应参数的名称（即参数键），以及这些参数所对应的连续物理数值。尽管上述子任务分别作用于异构的空间（如离散类别空间、符号空间与连续实数空间），我们证明它们可被统一纳入同一个自回归式“下一词预测”范式之中，且该范式的预测误差上界由值域空间所采用的量化网格粒度决定。基于这一理论洞见，我们提出了DU-VLM——一种多模态链式思维模型，其训练融合了监督微调与基于结构化奖励的强化学习策略。此外，我们进一步证实：DU-VLM可作为零样本控制器，直接驱动预训练的扩散模型，从而在无需对生成主干网络进行任何微调的前提下，实现高保真度的图像复原。我们还构建并发布了**DU-110k**数据集——一个大规模图像退化基准数据集，包含11万个干净图像–退化图像配对样本，并为每种退化类型提供了严格锚定于物理模型的细粒度参数标注。大量实验表明，我们的方法在预测精度与鲁棒性两方面均显著优于各类通用型基线模型，并展现出面向未见过退化分布的强泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视觉退化（如模糊、噪声、压缩失真等）的物理级理解问题——即不仅识别退化类型，还需准确估计其可量化的物理参数（如高斯模糊核大小、JPEG质量因子、噪声标准差等）。这不是一个全新问题，但现有VLMs和传统方法均未系统性地将退化建模为统一、分层、可微的结构化预测任务，尤其缺乏对连续物理参数的精确、可解释、泛化性强的联合估计能力。
关键思路

将退化理解重新定义为层次化结构化预测任务（退化类型 → 参数键 → 量化连续值），并首次证明该多空间任务可被统一为带误差界保证的自回归token预测问题（误差由值空间量化网格分辨率决定）；基于此设计DU-VLM——一个支持链式推理的多模态VLM，通过监督微调+结构化奖励强化学习联合优化，并创新性地将其用作零样本控制器驱动冻结的预训练扩散模型进行物理一致的图像恢复。
其它亮点

1) 提出首个大规模物理接地数据集DU-110k（110K clean-degraded pairs，含像素级退化类型掩码与精确物理参数标注）；2) DU-VLM在退化识别、参数回归、跨分布泛化上显著超越GPT-4V、Qwen-VL、InternVL等通用VLM及专用退化估计器；3) 首次实现VLM零样本控制扩散模型（如SDXL）完成高质量、物理可信的端到端恢复，无需微调生成器；4) 开源DU-110k数据集与评估基准（代码暂未开源，但论文明确承诺即将发布）；5) 实验涵盖合成退化（8类+组合）、真实世界噪声、域外分布（如手机拍摄失真），验证强鲁棒性。
相关研究

1) 'Blind Image Quality Assessment with Deep Learning: A Survey' (TPAMI 2023); 2) 'Restormer: Efficient Transformer for High-Resolution Image Restoration' (CVPR 2022); 3) 'DiffusionCLIP: Text-Guided Diffusion Models for Image Manipulation' (ICLR 2023); 4) 'Visual Prompt Tuning for Degradation-Aware Restoration' (NeurIPS 2023); 5) 'Physics-Informed Neural Networks for Blind Image Deblurring' (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问