高效压缩99%参数量，让3DLUT轻装上阵！轻量型图像增强方案CLUT-Net开源

论文地址：https://cslinzhang.gitee.io/home/ACMMM2022/fengyi.pdf

开源代码：https://github.com/Xian-Bei/CLUT-Net

受益于3DLUT的内在机制，基于深度学习的3DLUT技术(Deep3DLUT)提出之日即引发轰动。关于Deep3DLUT的详细介绍可参考如下链接：图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT。紧随其后，也出现了一些关于3DLUT的改进，比如PA-3DLUT、SA-3DLUT、AdaInt以及SepLUT等。但这些方法无疑均导致了计算效率的降低，鲜少有对3DLUT的参数的冗余性进行研究。

本文作者则对3DLUT参数的可压缩性进行了深入分析，提出了一种3DLUT的高效压缩表示(即CLUT)，它在保持3DLUT的强力映射能力的同时大幅降低了参数量。基于CLUT，作者进一步构建了一个轻量型图像增强方案CLUT-Net，其图像自适应与压缩自适应的CLUT可通过端到端方式学习得到。

MIT-Adobe FiveK、PPR10K以及HDR+数据集上的实验表明：所提CLUT-Net在具有SOTA性能的同时参数量大幅降低。

本文方案

Compressibility of 3DLUT

标准的3DLUT可以表示为，我们将3DLUT拆分为三个子表以对应不同的通道并表示为。也就是说，3DLUT将RGB颜色空间的每个维度离散化为D个区间，产生了个离散颜色(可表示)，同时保存了每个区间对应的颜色(可表示为)。3DLUT的处理过程包含一个lookup操作与一个trilinear操作，前者用于近邻颜色定位，后者用于融合以得到输出颜色。

受益于它可以同时并行处理所有像素，3DLUT具有高计算效率。但是，由于参数量的级增长，它具有极高的空间复杂度。通过降低超参数D达成压缩3DLUT是一种自然的思路，但这种方式会导致性能退化，甚至出现不可接受的退化。

事实上，我们发现：对于每个\( \phi^c \)，不同维度的输入对输出具有不同的影响。因此，我们可以根据不同的影响对\( \phi^c \)的不同维度添加最合适的压缩比例，而非同等比例的压缩。具体来说，我们采用表示3DLUT不同维度的区间数，3DLUT可以进一步表示为。给定特定的颜色通道，其他两个通道表示为x，y，我们发现 ：\( \phi^c \)的输出值\( c_{out} \)与\( c_{in} \)强相关，而与其他两个通道弱相关。

Learning Adaptively Compressed Representatiosn of 3DLUTs

基于前述分析，我们提出了CLUT(即3DLUT的高效压缩表示)：。相比标准表示，CLUT引入了两个超参S和W以精确控制不同维度的压缩程度。此外，通过两个变换矩阵将压缩到S、压缩到W，3DLUT的每个子表被压缩为，两者之间的重建过程可以描述如下：

注：h表示简单的reshape操作，即将调整为。

基于上述CLUT，我们构建了上图所示的CLUT-Net架构，它包含三个模块(见图中虚线框部分)：神经网络G、N个CLUTs、两个变换矩阵。注：神经网络G和CLUT与标准Deep3DLUT中的3DLUTs和神经网络具有相同的作用。变换矩阵用于3DLUTs与CLUTs之间的自适应重建，超参数N、S、 W分别设置为20、5、20。

具体来说，给定输入图像I，G用于预测内容相关的权值；然后，对CLUTs进行线性组合到具有图像自适应的CLUT：

其次，进行图像自适应的3DLUT重建并作用于输入图像得到增强结果O，该过程描述如下：

Loss Function

该方案的训练损失函数可以描述如下：

本文实验

上述表与图给出了不同方案在FiveK、HDR+以及PPR10K数据集上的性能与可视化结果对比，可以看到：

在不同数据量与度量标准下，CLUT-Net均取得了最佳。 值得一提的是，当采用30个3DLUTs时，CLUT机制可以将3DLUTs的参数量从3234K减少到31k，减幅达99%。
在计算效率方面，继承了标准3DLUT的高效性，CLUT-Net能以不到0.7ms的速度对1920*1080尺寸的图像进行增强(Titan RTX GPU)。
从视觉效果方面来看，CLUT-Net方案具有最佳的增强效果(色彩、饱和度以及对比度)。
总而言之，CLUT-Net不仅以更少的参数量改进了标准3DLUT类方案的量化性能，同时具有更优视觉质量的增强结果。

内容中包含的图片若涉及版权问题，请及时与我们联系删除