- 简介大多数神经压缩模型都是在大规模图像或视频数据集上进行训练,以便推广到未见过的数据。这种推广通常需要具有高解码复杂度的大型且具有表现力的架构。在这里,我们介绍了C3,一种神经压缩方法,它具有强大的速率-失真(RD)性能,而不是将一个大模型泛化到所有图像或视频。 C3的解码复杂度可以比具有类似RD性能的神经基线低一个数量级。C3基于COOL-CHIC(Ladune等人)并对图像进行了几个简单而有效的改进。我们还开发了新的方法将C3应用于视频。在CLIC2020图像基准测试中,我们将解码的MAC数控制在不到3k像素,与H.266编解码器的参考实现VTM的RD性能相匹配。在UVG视频基准测试中,我们将解码的MAC数控制在不到5k像素,与已经确立的神经视频编解码器Video Compression Transformer(Mentzer等人)的RD性能相匹配。
-
- 图表
- 解决问题论文旨在提出一种名为C3的神经压缩方法,通过将小型模型过度拟合到每个图像或视频上来实现强大的速率-失真性能。
- 关键思路C3通过将小型模型过度拟合到每个图像或视频上来实现强大的速率-失真性能,解决了神经压缩模型需要大规模数据集以及高解码复杂度的问题。
- 其它亮点C3方法在COOL-CHIC的基础上进行了改进,并开发了新的方法将其应用于视频压缩。在CLIC2020图像基准测试中,C3的解码复杂度比VTM低一个数量级,但性能相当。在UVG视频基准测试中,C3的解码复杂度比Video Compression Transformer低一个数量级,但性能相当。
- 在最近的相关研究中,还有一些关于神经压缩的研究,例如:《Real-time Adaptive Image Compression》、《End-to-End Optimized Image Compression》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流