- 简介近年来,出现了大量基于学习的拥塞控制(CC)解决方案,它们表现出比传统TCP方案更好的性能。然而,由于它们的目标函数与公平性、快速收敛性和稳定性等收敛特性不匹配,它们无法提供一致良好的收敛特性。尽管这些特性很直观,但将它们整合到现有的基于学习的CC中具有挑战性,因为:1)它们的训练环境是为单个流的性能优化而设计的,而无法进行协作多流优化;2)没有直接可测量的指标来表示这些特性,以将其纳入训练目标函数。我们提出了Astraea,一种新的基于学习的拥塞控制,它确保了快速收敛到公平性和稳定性。Astraea的核心是一个多智能体深度强化学习框架,通过启用多个竞争流之间的交互策略学习,在训练过程中显式地优化这些收敛特性,同时保持高性能。我们进一步构建了一个忠实的多流环境,模拟并发流的竞争行为,明确表达收敛特性以启用其在训练过程中的优化。我们已经完全实现了Astraea,并进行了全面的实验,结果表明Astraea能够快速收敛到公平点,并展现出比其竞争对手更好的稳定性。例如,当多个流竞争同一瓶颈时,Astraea实现了接近最优的带宽共享(即公平性),收敛速度快了8.4倍,吞吐量偏差小了2.8倍,同时实现了与之前解决方案相当甚至更好的性能。
- 图表
- 解决问题论文旨在解决学习型拥塞控制算法在多流竞争环境下无法保证公平性、快速收敛和稳定性的问题。
- 关键思路Astraea是一个基于多智能体深度强化学习框架的拥塞控制算法,通过在训练过程中学习多个竞争流之间的交互策略,显式优化公平性、快速收敛和稳定性。
- 其它亮点论文提供了一个快速收敛到公平点并比同类算法具有更好稳定性的解决方案。实验结果表明,Astraea在多流竞争环境下能够实现接近最优的带宽共享,收敛速度最高可达到8.4倍,吞吐量偏差最多可减少2.8倍。
- 与该研究相关的其他工作包括:Learning to Optimize Multipath Transport Protocol with Reinforcement Learning,PCC Vivace: Online-Learning Congestion Control,等等。
沙发等你来抢
去评论
评论
沙发等你来抢