Language-Oriented Semantic Latent Representation for Image Transmission

简介

在语义通信的新范式中，重点是从原始数据中提取语义信息，传递比特背后的含义。最近数据转文本模型的进步促进了以语言为导向的语义通信，特别是通过图像到文本（I2T）编码和文本到图像（T2I）解码进行的文本转换图像通信。然而，尽管语义上对齐，文本过于粗糙，无法精确捕捉空间位置、颜色和纹理等复杂的视觉特征，导致意图和重构图像之间存在显著的感知差异。为了解决这个限制，本文提出了一种新颖的以语言为导向的语义通信框架，它传递文本和压缩图像嵌入，并使用潜在扩散模型将它们组合起来重构预期的图像。实验结果验证了我们的方法的潜力，该方法仅传输原始图像大小的2.09％，而在嘈杂的通信信道中实现了比基线语义通信方法更高的感知相似性，该基线方法仅通过文本进行通信。代码可在https://github.com/ispamm/Img2Img-SC/上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种新的语言导向的语义通信框架，旨在通过结合文本和压缩图像嵌入来重构预期的图像，以解决当前文本无法准确捕捉复杂视觉特征的问题。
关键思路

通过将文本和压缩图像嵌入结合使用潜在扩散模型来重构预期的图像，从而提高在噪声通信通道中的感知相似度。
其它亮点

实验结果表明，与仅通过文本通信的基线SC方法相比，该方法仅传输原始图像大小的2.09％，同时在噪声通信通道中实现更高的感知相似度。代码已开源。
相关研究

最近的相关研究包括：1）数据到文本模型的进展；2）基于图像到文本和文本到图像的模型的语义通信；3）压缩图像的通信方法。

Language-Oriented Semantic Latent Representation for Image Transmission

提问交流

提问交流