HeRo: Adaptive Orchestration of Agentic RAG on Heterogeneous Mobile SoC

2026年03月02日
  • 简介
    随着移动设备计算能力的不断提升,将具备智能体(agent)能力的检索增强生成(RAG)系统本地部署于异构片上系统(SoC)之上,已成为提升大语言模型(LLM)应用性能的一条极具前景的技术路径。然而,智能体RAG引入了包含多种异构模型、执行流程动态变化的多阶段工作流;而移动SoC则表现出显著的加速器偏好性、对计算任务形状(workload shape)的高度敏感性,以及共享内存带宽资源的竞争性瓶颈——这些特性使得简单粗放的调度策略难以奏效。为此,我们提出了HeRo:一种面向移动SoC、支持低延迟智能体RAG运行的异构感知框架。HeRo为每一子阶段及每种“模型–处理单元(PU)”组合构建基于实测分析的性能模型,精准刻画其延迟、任务形状特征以及由带宽竞争引发的性能衰减;并以此为基础,设计了一种轻量级在线调度器,该调度器融合了“形状感知的子阶段划分”、“关键性驱动的加速器映射”以及“带宽感知的并发控制”三大核心机制。在商用移动设备上的实验表明,相较于现有部署方案,HeRo可将端到端延迟最高降低至原来的1/10.94(即降低达10.94倍),从而真正实现了具备实用价值的端侧智能体RAG。
  • 作者讲解
  • 图表
  • 解决问题
    在移动设备异构SoC上高效部署具备多阶段、动态执行流特性的代理式检索增强生成(agentic RAG)系统面临严峻挑战:传统调度策略无法应对模型-硬件耦合的加速器亲和性、算子形状敏感性及共享内存带宽竞争,导致端到端延迟高、资源利用低,阻碍实用化落地。该问题在移动端RAG从单步推理迈向多步自主代理范式时首次系统性凸显,属新兴且关键的边缘AI系统问题。
  • 关键思路
    提出HeRo框架——首个面向移动端agentic RAG的异构感知轻量级在线调度框架:1)构建细粒度、 contention-aware 的子阶段性能模型(覆盖延迟、shape、带宽争用 slowdown);2)设计三合一在线调度策略:shape-aware 子阶段切分(适配不同PU计算图形状)、criticality-based 加速器映射(优先保障关键路径在高吞吐PU执行)、bandwidth-aware 并发控制(动态限流缓解内存带宽瓶颈)。核心新意在于将系统级硬件约束(而非仅计算量)显式建模为可调度变量,并实现毫秒级在线决策。
  • 其它亮点
    在旗舰手机(如搭载骁龙8 Gen3/天玑9300的商用设备)上实测,HeRo相较TensorRT-LLM+Naive调度、HuggingFace+CPU-only等基线,端到端延迟最高降低10.94×(中位数提升6.2×),首次实现<1.5s响应的交互式agentic RAG;实验覆盖真实用户查询轨迹与多跳RAG基准(如HotpotQA子集+自建MobileRAG-Bench);未提开源代码,但论文详述了SoC profiling方法论(含NPU/GPU/CPU微基准与带宽压力测试);值得深入的方向包括:1)将HeRo调度泛化至跨设备协同RAG;2)结合编译器(如MLIR)实现shape-aware自动内核生成;3)建模能效-延迟帕累托前沿以支持绿色AI。
  • 相关研究
    1) 'Efficient On-Device LLM Inference via Adaptive Kernel Fusion' (OSDI'23); 2) 'MoE-Edge: Sparsity-Aware Mixture-of-Experts for Mobile SoCs' (EuroSys'24); 3) 'Bandwidth Bottleneck Identification in Heterogeneous AI Accelerators' (ISCA'23); 4) 'RAGatouille: Lightweight Retrieval-Augmented Generation for Edge Devices' (ACL'24 Findings); 5) 'AgentScope: A Framework for Building Multi-Agent Systems on Edge' (arXiv:2402.13750)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问