- 简介随着具备自主能力的大语言模型(LLMs)在个人设备上的普及,出现了一类新的工作负载,其特点是目标存在二元性。由用户发起的响应式任务要求即时响应、低延迟,而主动式任务则在后台静默运行,更注重吞吐量。现有的本地大语言模型引擎是为单独的推理任务设计的,难以在配备CPU、集成GPU和NPU的消费级异构SoC上高效处理这些并发且相互冲突的请求。 本文提出了Agent.xpu,这是一种面向内存统一架构的异构SoC上高效支持代理型大语言模型工作负载的服务系统。通过专门的离线分析,Agent.xpu首先构建一个异构执行图,融合并分块模型计算核,在预测性核注释的基础上,根据亲和性指导进行弹性加速器映射。在运行时,其在线调度器支持细粒度、基于计算核的抢占机制,以保证响应式任务的响应速度。为了最大化SoC利用率,系统采用基于空闲时间感知的核回填策略,抓住机会执行主动式任务,并通过带宽感知的调度缓解NPU与集成GPU之间的资源争抢。 在Intel Core Ultra SoC上的评估结果显示,与当前最先进的推理引擎相比,Agent.xpu使响应式任务的延迟降低了4.6倍,同时主动式任务的吞吐量提升了1.6至6.8倍。
-
- 图表
- 解决问题论文旨在解决在个人设备上运行具有代理能力的大语言模型(LLMs)所带来的新型工作负载问题。这类问题主要体现在用户发起的“反应型任务”需要低延迟响应,而系统后台的“主动型任务”则更注重吞吐量。现有的本地大模型推理引擎无法高效处理这些并发且目标冲突的任务,特别是在消费级异构SoC(包含CPU、集成GPU和NPU)上。
- 关键思路论文提出Agent.xpu,一种面向异构SoC的高效服务系统,专为处理代理式LLM工作负载设计。其核心思路包括:1)通过离线性能分析构建异构执行图,并基于算子亲和性进行弹性加速器映射;2)在线调度阶段采用细粒度的算子级抢占机制,确保反应型任务的实时响应;3)利用空闲资源动态填充主动型任务,同时缓解NPU与iGPU之间的带宽竞争。
- 其它亮点1. 提出了融合模型算子的异构执行图构建方法,支持跨硬件单元的弹性调度 2. 引入预测性算子注解和弹性映射策略,优化计算资源分配 3. 实现了算子级别的抢占机制,显著降低反应型任务延迟 4. 结合空闲感知的后填算法和带宽感知的任务分发,提升整体SoC利用率 5. 在Intel Core Ultra SoC上的实验表明,反应型任务延迟降低4.6倍,主动型任务吞吐量提升1.6-6.8倍
- 1. TensorRT: Optimizing Transformer-based Models for Inference on NVIDIA GPUs 2. MNN: A High-Efficiency Inference Framework for Heterogeneous Devices 3. HAN: Hardware-Aware Neural Network Inference Scheduler for Edge Devices 4. TVM: An End-to-End Optimization Stack for Deep Learning Workloads 5. Efficient Large Language Model Serving on Mobile SoCs via Dynamic Operator Fusion and Adaptive Scheduling
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流