向量量化(Vector quantization,VQ)已经成为自回归(AR)模型生成高分辨率图像的一种基本技术,具体来说,该技术将图像特征图通过 VQ 量化后,再进行光栅扫描等排序,之后将图像表示为离散编码序列。量化后,训练的 AR 模型对序列中的编码进行序列预测。也就是说,AR 模型可以生成高分辨率的图像,而无需预测图像中的全部像素。
我们假设减少编码的序列长度对于图像的 AR 建模很重要。短编码序列可以显着降低 AR 模型的计算成本,因为 AR 通常使用先前位置的编码来预测下一个编码。然而,以前的研究由于图像的序列长度问题在速率 - 失真(rate-distortion)不能很好的权衡。也就是说,VQ-VAE 需要呈指数增长的编码簿 (Codebook)大小来降低量化特征图的分辨率,同时保持重建图像的质量。然而,巨大的编码簿会导致模型参数增加和编码簿崩溃,使得 VQ-VAE 的训练不稳定。
来自 Kakao Brain 、韩国浦项科技大学的研究者提出了一种残差量化 VAE (RQ-VAE)方法,它使用残差量化 (RQ) 来精确逼近特征图并降低其空间分辨率。RQ 没有增加编码簿大小,而是使用固定大小的编码簿以从粗到细的方式递归量化特征图。在 RQ 的 D 次迭代之后,特征图表示为 D 个离散编码的堆叠图。由于 RQ 可以组成与编码簿大小一样多的向量,因此 RQ-VAE 可以精确地逼近特征图,同时保留编码图像的信息,而无需庞大的编码簿。由于精确的近似,RQ-VAE 可以比以前的研究 [14,37,45] 进一步降低量化特征图的空间分辨率。例如, RQ-VAE 可以使用 8×8 分辨率的特征图对 256×256 图像进行 AR 建模。该论文已被 CVPR'22 接收。
论文地址:https://arxiv.org/pdf/2203.01941.pdf
此外,该研究还提出了 RQ-Transformer 来预测 RQ-VAE 提取的编码。对于 RQ-Transformer 的输入,该研究首先将 RQ-VAE 中的量化特征映射转换为特征向量序列;然后,RQ-Transformer 预测下一个 D 编码,以估计下一个位置的特征向量。由于 RQ-VAE 降低了特征图的分辨率,RQ-Transformer 可以显着降低计算成本并轻松学习输入的远程交互。该研究还为 RQ-Transformer 提出了两种训练技术,软标签(soft labeling)和用于 RQ-VAE 编码的随机采样。通过解决 AR 模型训练中的曝光偏差(exposure bias)进一步提高了 RQ-Transformer 的性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除