Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services

2024年06月27日
  • 简介
    越来越多的大型语言模型(LLMs)被采用,这就需要一个高效、安全、私密的服务基础架构,使研究人员能够运行开源或定制的LLMs,并确保用户的数据保持私密性,不会在未经同意的情况下被存储。虽然配备最先进的GPU的高性能计算(HPC)系统非常适合训练LLMs,但它们的批量调度范例并不适合支持AI应用程序的实时服务。另一方面,云系统非常适合Web服务,但通常缺乏访问计算集群的计算能力,尤其是昂贵且稀缺的高端GPU,这些GPU对于最佳推理速度是必需的。我们提出了一种架构,其实现包括在云VM上运行的Web服务,并安全地访问可扩展的后端,该后端在HPC系统上运行多个AI模型。通过使用我们的HPC基础设施提供Web服务来托管LLMs,我们利用了本地大学和研究中心的受信任环境,为商业LLM服务提供了一个私密且安全的替代方案。我们的解决方案与Slurm本地集群管理系统进行本地集成,可以无缝部署在HPC集群上,并且可以与常规Slurm工作负载并行运行,同时利用Slurm创建的时间间隙。为了确保HPC系统的安全性,我们使用SSH ForceCommand指令来构建一个强大的断路器,防止对Web服务器的成功攻击影响集群。我们已成功将我们的系统部署为生产服务,并在https://github.com/gwdg/chat-ai上提供了源代码。
  • 图表
  • 解决问题
    提供一种高效、安全、私密的服务架构,以运行开源或自定义的LLMs,并确保用户的数据保持私密和不被未经同意地存储。
  • 关键思路
    提出一种基于云平台和HPC系统的架构,通过一个运行在云VM上的Web服务,与一个运行在HPC系统上的可扩展后端相连接,以提供私密、安全的LLM服务。
  • 其它亮点
    该架构可以无缝地与Slurm集群管理系统集成,使用SSH ForceCommand指令构建了一个强大的断路器,以确保HPC系统的安全性。作者已将代码开源,并在https://github.com/gwdg/chat-ai上提供了下载。
  • 相关研究
    近期相关研究包括:1. "Privacy-Preserving Machine Learning: Threats and Solutions";2. "Secure Multi-Party Machine Learning: A Review";3. "Privacy-Preserving Deep Learning: Challenges and Opportunities"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论