SMC++: Masked Learning of Unsupervised Video Semantic Compression

2024年06月07日
  • 简介
    大多数视频压缩方法都专注于人类视觉感知,而忽略了语义保留。这导致在压缩过程中出现严重的语义丢失,影响下游视频分析任务。本文提出了一种基于Masked Video Modeling (MVM)的压缩框架,特别是通过自监督方式联合挖掘和压缩语义来保留视频语义。虽然MVM在通过遮蔽补丁预测任务学习可推广的语义方面很擅长,但它也可能编码非语义信息,如琐碎的纹理细节,浪费比特成本并带来语义噪声。为了抑制这种情况,我们在MVM令牌空间中明确规范了压缩视频的非语义熵。所提出的框架被实例化为一个简单的“语义挖掘-压缩”(SMC)模型。此外,我们从几个方面将SMC扩展为先进的SMC ++模型。首先,我们赋予它一个遮蔽运动预测目标,从而提高了时间语义学习能力。其次,我们引入了基于Transformer的压缩模块,以提高语义压缩效率。考虑到直接挖掘不同编码阶段中异构特征之间的复杂冗余是非常困难的,我们引入了一个紧凑的蓝图语义表示,将这些特征对齐到相似的形式中,充分释放了基于Transformer的压缩模块的能力。广泛的结果表明,所提出的SMC和SMC ++模型在三个视频分析任务和七个数据集上都表现出了显着的优越性,超过了以往的传统、可学习和感知质量导向的视频编解码器。 \textit {代码和模型可在以下网址找到:\url {https://github.com/tianyuan168326/VideoSemanticCompression-Pytorch}。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决视频压缩中语义信息的严重丢失问题,提出了一种基于掩码视频建模的压缩框架,通过自监督学习的方式联合挖掘和压缩语义信息。
  • 关键思路
    本文提出了一种名为SMC的压缩模型,通过掩码视频建模和显式正则化非语义信息熵的方法,实现了对视频语义信息的有效压缩和保留。
  • 其它亮点
    本文提出的SMC和SMC++模型在三个视频分析任务和七个数据集上表现出了明显的优越性,相比传统的、可学习的和感知质量导向的视频编解码器,具有更好的性能。此外,作者还提供了代码和模型。
  • 相关研究
    在相关研究中,最近还有一些涉及视频压缩和语义保留的研究,例如:Semantic Video Compression with Adversarial Bit Allocation;Learning to Compress Video from Scratch;End-to-End Optimized Video Compression with Hierarchical LSTMs。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问