Imitation Learning for Adaptive Video Streaming with Future Adversarial Information Bottleneck Principle

2024年03月12日
  • 简介
    自适应视频流媒体在确保高质量视频流媒体服务方面起着至关重要的作用。尽管已经投入了大量研究工作来开发自适应比特率(ABR)技术,但目前基于强化学习(RL)的ABR算法可能有助于平均体验质量(QoE),但在个别视频会话中却存在性能波动的问题。本文提出了一种新的方法,将模仿学习与信息瓶颈技术相结合,从复杂的离线最优场景中学习,而不是进行低效的探索。特别地,我们利用确定性离线比特率优化问题,以未来吞吐量实现为专家,并将其制定为混合整数非线性规划(MINLP)问题。为了实现大规模训练以提高性能,我们提出了一种替代优化算法,可以有效地解决MINLP问题。为了解决由于MINLP中未来信息泄漏而导致的过度拟合问题,我们引入了对抗信息瓶颈框架。通过将视频流状态压缩到潜在空间中,我们只保留与动作相关的信息。此外,我们引入了未来对抗项来减轻未来信息泄漏的影响,其中采用没有任何未来信息的模型预测控制(MPC)策略作为对抗专家。实验结果表明,我们提出的方法可以显著提高自适应视频流媒体的质量,提供7.30%的平均QoE改进和30.01%的平均排名降低。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决自适应视频流媒体中的质量波动问题,提出了一种结合模仿学习和信息瓶颈技术的新方法。
  • 关键思路
    本文提出了一种使用确定性离线比特率优化问题作为专家的混合整数非线性规划(MINLP)问题,将视频流状态压缩成一个潜在空间,仅保留与行动相关的信息,并引入未来对抗性项来减轻未来信息泄漏的影响。
  • 其它亮点
    本文提出的方法在大规模训练中显著提高了自适应视频流媒体的质量,平均QoE提高了7.30%,平均排名降低了30.01%。
  • 相关研究
    最近的相关研究包括使用强化学习的ABR算法,以及使用信息瓶颈技术的深度学习方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问