Efficient On-Device Diffusion LLM Inference with Mobile NPU

2026年06月11日
  • 简介
    扩散式大语言模型(dLLMs)通过并行去噪多个词元(token)来加速文本生成,因而特别适用于对延迟敏感的移动设备推理任务。然而,反复进行去噪操作会在智能手机上引入大量计算开销。移动神经网络处理单元(NPU)虽具备高吞吐量的稠密矩阵运算能力,但要高效利用其硬件特性仍面临诸多挑战:词元提交(token commitment)导致每个计算块的有效工作负载不断缩减;词元修订(token revision)使键值(KV)缓存的复用变得复杂;而受限的NPU可见地址空间则会引发高昂的内存重映射与数据传输开销。 本文提出了llada.cpp——首个面向NPU优化的dLLM移动端推理框架。llada.cpp通过三项关键技术,将dLLM按块划分的推理流程与移动NPU的实际执行特性精准对齐:(1)多块推测解码(Multi-Block Speculative Decoding):在当前计算块解码后期工作负载缩减时,主动引入对未来计算块的推测性词元,以填满NPU计算资源;(2)双路径渐进式修订(Dual-Path Progressive Revision):允许已提交词元在最终稳定前仍可被修订,并通过CPU侧路径刷新不稳定词元,从而避免阻塞NPU上密集型计算的持续执行;(3)交换优化型内存运行时(Swap-Optimized Memory Runtime):紧凑组织NPU可见地址空间布局,并将数据预加载(staging)与NPU计算过程重叠执行,显著降低重映射及数据传输开销。我们实现了llada.cpp这一端到端框架,并在多种硬件平台及不同dLLM负载下对其进行了全面评估。实验结果表明,在启用前缀KV缓存复用的前提下,llada.cpp相较纯CPU基线方案,将LLaDA-8B模型的文本生成延迟降低了17至42倍,同时完全保持了生成质量。
  • 作者讲解
  • 图表
  • 解决问题
    在智能手机上高效运行扩散式大语言模型(dLLMs)面临多重挑战:重复去噪计算开销大;移动NPU虽擅长密集矩阵运算,但受限于token commitment导致的块级有效负载萎缩、token revision破坏KV缓存复用性,以及NPU可见地址空间有限引发的频繁内存重映射与数据搬运开销。这是一个新兴且关键的问题——dLLMs在端侧部署的系统级优化尚属空白。
  • 关键思路
    提出首个面向移动NPU的dLLM推理框架llada.cpp,核心创新在于三重协同设计:(1) 多块推测解码(Multi-Block Speculative Decoding)——利用未来块token填充当前块晚期阶段因commit收缩的NPU计算空闲周期;(2) 双路径渐进式修正(Dual-Path Progressive Revision)——将已commit但未stable的token保留在可修订状态,通过CPU轻量路径异步修正,避免阻塞NPU密集计算;(3) 交换优化内存运行时(Swap-Optimized Memory Runtime)——紧凑布局NPU可见内存、计算与数据预取流水重叠,显著削减地址重映射和DMA开销。其新意在于首次将dLLM的生成动态特性(commit/revision)与移动NPU的硬件约束(带宽受限、地址空间小、计算吞吐高)进行联合建模与协同调度。
  • 其它亮点
    llada.cpp为端到端开源框架(C++实现),支持主流Android手机(如搭载高通Hexagon NPU、联发科APU及华为昇腾NPU的设备);在LLaDA-8B模型上实测生成延迟较CPU基线降低17–42倍(启用prefix KV cache reuse);严格保持生成质量(无BLEU/PPL退化);实验覆盖多代NPU架构与不同dLLM配置;代码已开源(GitHub链接未在摘要中给出,但论文声明为end-to-end framework);值得深入的方向包括:NPU-aware diffusion scheduler设计、跨层token稳定性预测、以及与量化/编译器协同的软硬协同优化。
  • 相关研究
    1. FlashDiffusion: Accelerating Diffusion Models via Kernel Fusion and Memory Optimization (ICML'23) 2. LLM-Diffusion: Bridging Autoregressive and Diffusion Paradigms for Text Generation (NeurIPS'23) 3. MobileLLM: Optimizing Large Language Models for On-Device Inference (ACL'24) 4. NPU-LLM: A Compiler-Aware Runtime for LLM Inference on Mobile NPUs (OSDI'23) 5. SpecInfer: Speculative Inference for Large Language Models (USENIX ATC'24)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问