A Survey on Failure Analysis and Fault Injection in AI Systems

简介

人工智能（AI）的快速发展已经导致其被整合到各个领域，特别是大型语言模型（LLMs）显著增强了人工智能生成内容（AIGC）的能力。然而，AI系统的复杂性也暴露了它们的脆弱性，需要强大的故障分析（FA）和故障注入（FI）方法来确保韧性和可靠性。尽管这些技术的重要性，但AI系统中缺乏全面的FA和FI方法论的综述。本研究通过对AI系统的六个层面上现有FA和FI方法的详细调查来填补这一空白。我们系统地分析了160篇论文和代码库，回答了三个研究问题，包括（1）AI系统中普遍存在哪些故障，（2）当前FI工具可以模拟哪些类型的故障，（3）模拟故障和现实世界故障之间存在哪些差距。我们的研究结果揭示了AI系统故障的分类，评估了现有FI工具的能力，并突出了现实世界故障和模拟故障之间的差异。此外，本研究通过提供故障诊断框架、评估FI技术的最新进展和识别FI技术改进的领域，为该领域做出了贡献，以提高AI系统的韧性。
图表
解决问题

本论文旨在填补人工智能系统中故障分析和故障注入方法的综述缺口，以提高人工智能系统的弹性和可靠性。
关键思路

本文通过分析160篇论文和代码库，系统地研究了AI系统六个层面上现有的FA和FI方法，提出了AI系统故障的分类法，评估了现有FI工具的能力，并发现了现有FI技术与现实世界故障之间的差距。
其它亮点

本文提供了故障诊断框架，评估了FI技术的现状，并确定了FI技术改进的领域，以提高AI系统的弹性。
相关研究

最近的相关研究包括“Towards Resilient Machine Learning Systems: A Systematic Survey of Techniques and Applications”和“An Overview of Fault Injection Techniques for Safety-Critical Systems”。

A Survey on Failure Analysis and Fault Injection in AI Systems

评论