Ascend-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads

简介

云工作负载已经主导了基于大型语言模型（LLM）的生成式人工智能。专用的硬件加速器，如GPU、NPU和TPU，由于比通用CPU具有更高的性能，发挥了人工智能采用的关键作用。人工智能模型和数据通常非常敏感，来自相互不信任的各方。现有的基于CPU的TEE，如Intel SGX或AMD SEV，无法提供足够的保护。基于设备的TEE，如Nvidia-CC，只解决了具有专有解决方案的紧密耦合的CPU-GPU系统，需要在主机CPU端使用TEE。另一方面，现有的学术提案是针对特定的CPU-TEE平台定制的。为了填补这一空白，我们提出了Ascend-CC，这是一种基于离散NPU设备的机密计算架构，不需要对主机系统进行信任。Ascend-CC通过确保数据和模型加密来提供强大的安全保护，这不仅保护数据，还保护模型参数和运算符二进制文件。Ascend-CC使用基于委托的内存语义来确保与主机软件堆栈的隔离，任务证明提供了强大的模型完整性保证。我们的Ascend-CC实现和评估与Llama2和Llama3等最先进的LLM一起展示，Ascend-CC引入了最小的开销，而且不需要改变人工智能软件堆栈。
图表
解决问题

论文提出了Ascend-CC，一种基于离散NPU设备的保密计算架构，旨在解决AI模型和数据的安全问题。当前的CPU-TEE方案不能提供足够的保护，而现有的学术提议则针对特定的CPU-TEE平台。
关键思路

Ascend-CC使用离散NPU设备实现保密计算，并通过委托式内存语义和任务认证来确保模型和数据的安全。与现有的CPU-TEE方案相比，Ascend-CC不需要对主机系统进行信任，同时不需要对AI软件栈进行任何更改。
其它亮点

Ascend-CC实现了数据和模型加密，保护了数据、模型参数和操作二进制文件的安全。委托式内存语义确保了与主机软件堆栈的隔离，任务认证提供了强大的模型完整性保证。实验结果表明，Ascend-CC引入了最小的开销，并且没有对AI软件栈进行任何更改。
相关研究

最近的相关研究包括：Intel SGX和AMD SEV等CPU-TEE方案，以及Nvidia-CC等设备中心TEE方案。此外，还有一些针对特定CPU-TEE平台的学术提议。

Ascend-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads

评论