HeRo: Adaptive Orchestration of Agentic RAG on Heterogeneous Mobile SoC

向作者提问

NEW

简介

随着移动设备计算能力的不断提升，将具备智能体（agent）能力的检索增强生成（RAG）系统本地部署于异构片上系统（SoC）之上，已成为提升大语言模型（LLM）应用性能的一条极具前景的技术路径。然而，智能体RAG引入了包含多种异构模型、执行流程动态变化的多阶段工作流；而移动SoC则表现出显著的加速器偏好性、对计算任务形状（workload shape）的高度敏感性，以及共享内存带宽资源的竞争性瓶颈——这些特性使得简单粗放的调度策略难以奏效。为此，我们提出了HeRo：一种面向移动SoC、支持低延迟智能体RAG运行的异构感知框架。HeRo为每一子阶段及每种“模型–处理单元（PU）”组合构建基于实测分析的性能模型，精准刻画其延迟、任务形状特征以及由带宽竞争引发的性能衰减；并以此为基础，设计了一种轻量级在线调度器，该调度器融合了“形状感知的子阶段划分”、“关键性驱动的加速器映射”以及“带宽感知的并发控制”三大核心机制。在商用移动设备上的实验表明，相较于现有部署方案，HeRo可将端到端延迟最高降低至原来的1/10.94（即降低达10.94倍），从而真正实现了具备实用价值的端侧智能体RAG。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在移动设备异构SoC上高效部署具备多阶段、动态执行流特性的代理式检索增强生成（agentic RAG）系统面临严峻挑战：传统调度策略无法应对模型-硬件耦合的加速器亲和性、算子形状敏感性及共享内存带宽竞争，导致端到端延迟高、资源利用低，阻碍实用化落地。该问题在移动端RAG从单步推理迈向多步自主代理范式时首次系统性凸显，属新兴且关键的边缘AI系统问题。
关键思路

提出HeRo框架——首个面向移动端agentic RAG的异构感知轻量级在线调度框架：1）构建细粒度、 contention-aware 的子阶段性能模型（覆盖延迟、shape、带宽争用 slowdown）；2）设计三合一在线调度策略：shape-aware 子阶段切分（适配不同PU计算图形状）、criticality-based 加速器映射（优先保障关键路径在高吞吐PU执行）、bandwidth-aware 并发控制（动态限流缓解内存带宽瓶颈）。核心新意在于将系统级硬件约束（而非仅计算量）显式建模为可调度变量，并实现毫秒级在线决策。
其它亮点

在旗舰手机（如搭载骁龙8 Gen3/天玑9300的商用设备）上实测，HeRo相较TensorRT-LLM+Naive调度、HuggingFace+CPU-only等基线，端到端延迟最高降低10.94×（中位数提升6.2×），首次实现<1.5s响应的交互式agentic RAG；实验覆盖真实用户查询轨迹与多跳RAG基准（如HotpotQA子集+自建MobileRAG-Bench）；未提开源代码，但论文详述了SoC profiling方法论（含NPU/GPU/CPU微基准与带宽压力测试）；值得深入的方向包括：1）将HeRo调度泛化至跨设备协同RAG；2）结合编译器（如MLIR）实现shape-aware自动内核生成；3）建模能效-延迟帕累托前沿以支持绿色AI。
相关研究

1) 'Efficient On-Device LLM Inference via Adaptive Kernel Fusion' (OSDI'23); 2) 'MoE-Edge: Sparsity-Aware Mixture-of-Experts for Mobile SoCs' (EuroSys'24); 3) 'Bandwidth Bottleneck Identification in Heterogeneous AI Accelerators' (ISCA'23); 4) 'RAGatouille: Lightweight Retrieval-Augmented Generation for Edge Devices' (ACL'24 Findings); 5) 'AgentScope: A Framework for Building Multi-Agent Systems on Edge' (arXiv:2402.13750)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问