云服务一直在变化,无论是添加新功能还是修复错误和安全漏洞;这是与本地软件相比的一大优势。但是每一次更改也是一个引入错误和回归的机会,这些错误和回归是导致可靠性问题和云停机的主要原因。为了避免此类问题,Azure 使用安全的部署过程,分阶段推出更新,在越来越大的基础设施环上运行它们,并使用持续的人工智能监控来检测在开发和测试期间遗漏的任何问题。当微软去年推出 Chaos Studio 服务以测试工作负载如何应对意外故障时,Azure 首席技术官 Mark Russinovich 解释了安全部署过程。“我们通过金丝雀集群作为我们安全部署的一部分,这是一个内部 Azure 区域,我们在其中进行了综合测试,并且我们拥有内部工作负载,这些工作负载在服务退出之前对其进行实际测试。这是新服务更新代码到达的第一个生产环境,因此我们希望确保在将其移出并实际接触客户之前,我们可以对其进行验证并对其质量有一个很好的了解。”

更多详情见连接原文....

内容中包含的图片若涉及版权问题,请及时与我们联系删除