Efficient On-Device Diffusion LLM Inference with Mobile NPU

向作者提问

NEW

简介

扩散式大语言模型（dLLMs）通过并行去噪多个词元（token）来加速文本生成，因而特别适用于对延迟敏感的移动设备推理任务。然而，反复进行去噪操作会在智能手机上引入大量计算开销。移动神经网络处理单元（NPU）虽具备高吞吐量的稠密矩阵运算能力，但要高效利用其硬件特性仍面临诸多挑战：词元提交（token commitment）导致每个计算块的有效工作负载不断缩减；词元修订（token revision）使键值（KV）缓存的复用变得复杂；而受限的NPU可见地址空间则会引发高昂的内存重映射与数据传输开销。本文提出了llada.cpp——首个面向NPU优化的dLLM移动端推理框架。llada.cpp通过三项关键技术，将dLLM按块划分的推理流程与移动NPU的实际执行特性精准对齐：（1）多块推测解码（Multi-Block Speculative Decoding）：在当前计算块解码后期工作负载缩减时，主动引入对未来计算块的推测性词元，以填满NPU计算资源；（2）双路径渐进式修订（Dual-Path Progressive Revision）：允许已提交词元在最终稳定前仍可被修订，并通过CPU侧路径刷新不稳定词元，从而避免阻塞NPU上密集型计算的持续执行；（3）交换优化型内存运行时（Swap-Optimized Memory Runtime）：紧凑组织NPU可见地址空间布局，并将数据预加载（staging）与NPU计算过程重叠执行，显著降低重映射及数据传输开销。我们实现了llada.cpp这一端到端框架，并在多种硬件平台及不同dLLM负载下对其进行了全面评估。实验结果表明，在启用前缀KV缓存复用的前提下，llada.cpp相较纯CPU基线方案，将LLaDA-8B模型的文本生成延迟降低了17至42倍，同时完全保持了生成质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在智能手机上高效运行扩散式大语言模型（dLLMs）面临多重挑战：重复去噪计算开销大；移动NPU虽擅长密集矩阵运算，但受限于token commitment导致的块级有效负载萎缩、token revision破坏KV缓存复用性，以及NPU可见地址空间有限引发的频繁内存重映射与数据搬运开销。这是一个新兴且关键的问题——dLLMs在端侧部署的系统级优化尚属空白。
关键思路

提出首个面向移动NPU的dLLM推理框架llada.cpp，核心创新在于三重协同设计：(1) 多块推测解码（Multi-Block Speculative Decoding）——利用未来块token填充当前块晚期阶段因commit收缩的NPU计算空闲周期；(2) 双路径渐进式修正（Dual-Path Progressive Revision）——将已commit但未stable的token保留在可修订状态，通过CPU轻量路径异步修正，避免阻塞NPU密集计算；(3) 交换优化内存运行时（Swap-Optimized Memory Runtime）——紧凑布局NPU可见内存、计算与数据预取流水重叠，显著削减地址重映射和DMA开销。其新意在于首次将dLLM的生成动态特性（commit/revision）与移动NPU的硬件约束（带宽受限、地址空间小、计算吞吐高）进行联合建模与协同调度。
其它亮点

llada.cpp为端到端开源框架（C++实现），支持主流Android手机（如搭载高通Hexagon NPU、联发科APU及华为昇腾NPU的设备）；在LLaDA-8B模型上实测生成延迟较CPU基线降低17–42倍（启用prefix KV cache reuse）；严格保持生成质量（无BLEU/PPL退化）；实验覆盖多代NPU架构与不同dLLM配置；代码已开源（GitHub链接未在摘要中给出，但论文声明为end-to-end framework）；值得深入的方向包括：NPU-aware diffusion scheduler设计、跨层token稳定性预测、以及与量化/编译器协同的软硬协同优化。
相关研究

1. FlashDiffusion: Accelerating Diffusion Models via Kernel Fusion and Memory Optimization (ICML'23) 2. LLM-Diffusion: Bridging Autoregressive and Diffusion Paradigms for Text Generation (NeurIPS'23) 3. MobileLLM: Optimizing Large Language Models for On-Device Inference (ACL'24) 4. NPU-LLM: A Compiler-Aware Runtime for LLM Inference on Mobile NPUs (OSDI'23) 5. SpecInfer: Speculative Inference for Large Language Models (USENIX ATC'24)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问