VideoQA-SC: Adaptive Semantic Communication for Video Question Answering

2024年05月17日
  • 简介
    虽然语义通信(SC)已经显示出在高效传输多模态数据(如文本、语音和图像)方面的潜力,但是SC在视频方面的重点仍然是像素级重建。然而,这些SC系统可能对下游智能任务不够优化。此外,没有像素级视频重建的SC系统通过实现更高的带宽效率和各种智能任务的实时性而具有优势。这种系统设计的困难在于提取与任务相关的紧凑语义表示及其在嘈杂通道上的准确传递。在本文中,我们提出了一个用于视频问答(VideoQA)任务的端到端SC系统,称为VideoQA-SC。我们的目标是基于视频语义直接完成VideoQA任务,而不需要在接收方进行视频重建,即使在嘈杂或衰落的无线通道上也能实现。为此,我们开发了一个时空语义编码器,用于有效地提取视频语义,并使用基于学习的带宽自适应深度联合源通道编码(DJSCC)方案,以实现高效和稳健的视频语义传输。实验表明,在各种信道条件和带宽限制下,VideoQA-SC优于依赖接收方视频重建的传统和先进的DJSCC-based SC系统。特别是在信噪比低的情况下,与先进的DJSCC-based SC系统相比,VideoQA-SC可以提高5.17%的答案准确性,同时节省几乎99.5%的带宽。我们的结果显示了面向任务的SC系统设计在视频应用中的巨大潜力。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种面向视频问答任务的端到端语义通信(SC)系统,称为VideoQA-SC。该系统可以在噪声或衰落无线信道上直接基于视频语义完成VideoQA任务,无需在接收端进行视频重建。
  • 关键思路
    为了实现VideoQA任务的语义传递,本文提出了一种时空语义编码器和一种基于学习的带宽自适应深度联合源通道编码(DJSCC)方案。
  • 其它亮点
    本文的实验结果表明,相比于依赖于接收端视频重建的传统和先进的DJSCC-SC系统,VideoQA-SC在广泛的信道条件和带宽限制下都表现更好。当信噪比较低时,VideoQA-SC可以在节省几乎99.5%的带宽的同时,将答案准确率提高5.17%。
  • 相关研究
    与本文相关的研究包括视频问答任务、语义通信系统和深度联合源通道编码。其中一些论文包括:'MovieQA: Understanding Stories in Movies through Question-Answering'、'Deep Semantic Compression and Transmission'和'Deep Joint Source-Channel Coding for Wireless Video Streaming'.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问