
论文地址:https://cslinzhang.gitee.io/home/ACMMM2022/fengyi.pdf
开源代码:https://github.com/Xian-Bei/CLUT-Net
受益于3DLUT的内在机制,基于深度学习的3DLUT技术(Deep3DLUT)提出之日即引发轰动。关于Deep3DLUT的详细介绍可参考如下链接:图像增强领域大突破!以1.66ms的速度处理4K图像,港理工提出图像自适应的3DLUT。紧随其后,也出现了一些关于3DLUT的改进,比如PA-3DLUT、SA-3DLUT、AdaInt以及SepLUT等。但这些方法无疑均导致了计算效率的降低,鲜少有对3DLUT的参数的冗余性进行研究。
本文作者则对3DLUT参数的可压缩性进行了深入分析,提出了一种3DLUT的高效压缩表示(即CLUT),它在保持3DLUT的强力映射能力的同时大幅降低了参数量。基于CLUT,作者进一步构建了一个轻量型图像增强方案CLUT-Net,其图像自适应与压缩自适应的CLUT可通过端到端方式学习得到。
MIT-Adobe FiveK、PPR10K以及HDR+数据集上的实验表明:所提CLUT-Net在具有SOTA性能的同时参数量大幅降低。
本文方案
Compressibility of 3DLUT
标准的3DLUT可以表示为,我们将3DLUT拆分为三个子表以对应不同的通道并表示为
。也就是说,3DLUT将RGB颜色空间的每个维度离散化为D个区间,产生了个离散颜色(可表示
),同时保存了每个区间对应的颜色(可表示为
)。3DLUT的处理过程包含一个lookup操作与一个trilinear操作,前者用于近邻颜色定位,后者用于融合以得到输出颜色。
受益于它可以同时并行处理所有像素,3DLUT具有高计算效率。但是,由于参数量的级增长,它具有极高的空间复杂度。通过降低超参数D达成压缩3DLUT是一种自然的思路,但这种方式会导致性能退化,甚至出现不可接受的退化。

事实上,我们发现:对于每个\( \phi^c \),不同维度的输入对输出具有不同的影响。因此,我们可以根据不同的影响对\( \phi^c \)的不同维度添加最合适的压缩比例,而非同等比例的压缩。具体来说,我们采用表示3DLUT不同维度的区间数,3DLUT可以进一步表示为。给定特定的颜色通道
,其他两个通道表示为x,y,我们发现 :\( \phi^c \)的输出值\( c_{out} \)与\( c_{in} \)强相关,而与其他两个通道弱相关。
Learning Adaptively Compressed Representatiosn of 3DLUTs
基于前述分析,我们提出了CLUT(即3DLUT的高效压缩表示):。相比标准表示,CLUT引入了两个超参S和W以精确控制不同维度的压缩程度。此外,通过两个变换矩阵
将压缩到S、压缩到W,3DLUT的每个子表被压缩为,两者之间的重建过程可以描述如下:

注:h表示简单的reshape操作,即将调整为。

基于上述CLUT,我们构建了上图所示的CLUT-Net架构,它包含三个模块(见图中虚线框部分):神经网络G、N个CLUTs、两个变换矩阵。注:神经网络G和CLUT与标准Deep3DLUT中的3DLUTs和神经网络具有相同的作用。变换矩阵用于3DLUTs与CLUTs之间的自适应重建,超参数N、S、 W分别设置为20、5、20。
具体来说,给定输入图像I,G用于预测内容相关的权值;然后,对CLUTs进行线性组合到具有图像自适应的CLUT:
其次,进行图像自适应的3DLUT重建并作用于输入图像得到增强结果O,该过程描述如下:

Loss Function
该方案的训练损失函数可以描述如下:

本文实验


上述表与图给出了不同方案在FiveK、HDR+以及PPR10K数据集上的性能与可视化结果对比,可以看到:
-
在不同数据量与度量标准下,CLUT-Net均取得了最佳。 值得一提的是,当采用30个3DLUTs时,CLUT机制可以将3DLUTs的参数量从3234K减少到31k,减幅达99%。
-
在计算效率方面,继承了标准3DLUT的高效性,CLUT-Net能以不到0.7ms的速度对1920*1080尺寸的图像进行增强(Titan RTX GPU)。
-
从视觉效果方面来看,CLUT-Net方案具有最佳的增强效果(色彩、饱和度以及对比度)。
-
总而言之,CLUT-Net不仅以更少的参数量改进了标准3DLUT类方案的量化性能,同时具有更优视觉质量的增强结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢