Achieving High-Performance Fault-Tolerant Routing in HyperX Interconnection Networks

2024年04月05日
  • 简介
    互连网络是当前大型数据中心和超级计算机系统性能的关键因素。拓扑结构和路由是必须仔细考虑的关键方面,以设计出具有竞争力的系统网络。此外,当预期会出现每日故障时,这个组合应该表现出弹性和鲁棒性。低直径网络,包括HyperX,比典型的Fat Trees更便宜。但是,为了真正具有竞争力,它们必须采用进化的路由算法来平衡流量和容忍故障。 在本文中,介绍了一种高效的HyperX拓扑容错路由机制SurePath,并进行了评估。SurePath利用标准路由算法提供的路由和基于Up/Down逃逸子网络的死锁避免机制。这个机制不仅可以防止死锁,还可以为这些网络提供容错解决方案。在本文中,SurePath在不同的流量模式下进行了全面评估,在极其故障的情况下没有表现出性能下降。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种有效的故障容忍路由机制,以解决HyperX拓扑结构中的路由问题。
  • 关键思路
    SurePath利用标准路由算法提供的路由和基于Up/Down逃逸子网络的死锁避免机制,提供故障容忍的解决方案。
  • 其它亮点
    SurePath在不同的流量模式下进行了全面评估,表现出在极度故障情况下没有性能下降。
  • 相关研究
    最近的相关研究包括:1. 'A Survey of Fault-Tolerant Routing Techniques in Computer Networks',2. 'A Fault-Tolerant Routing Algorithm for Hypercube Networks',3. 'A Fault-Tolerant Routing Algorithm for k-ary n-cube Networks'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问