vLLM-Omni: Fully Disaggregated Serving for Any-to-Any Multimodal Models

向作者提问

NEW

简介

能够统一处理文本、图像、视频与音频的“任意模态到任意模态”（any-to-any）多模态模型，代表了多模态人工智能领域的一项重大进展。然而，这类模型架构极为复杂（通常融合多个自回归大语言模型、扩散变换器及其他专用组件），给高效模型部署带来了巨大挑战。当前主流的推理服务系统大多专为单一范式设计，例如仅面向文本生成的自回归大语言模型，或仅面向视觉生成的扩散变换器；它们缺乏对涉及多个相互耦合模型组件的“任意模态到任意模态”流水线的原生支持。因此，开发者不得不手动协调各阶段之间的交互，导致系统性能严重下降。为此，我们提出 vLLM-Omni——一个面向任意模态到任意模态模型的完全解耦式推理服务系统。vLLM-Omni 引入了一种新颖的“阶段抽象”机制，使用户可将复杂的任意模态到任意模态架构分解为一张由相互连接的处理阶段构成的有向图；同时配备了一个解耦式的阶段执行后端，可在不同阶段间协同优化资源利用率与整体吞吐量。每个阶段均由独立的 LLM 引擎或扩散引擎提供服务，并支持按阶段进行请求批处理、灵活的 GPU 资源分配，以及统一的跨阶段数据路由连接器。实验结果表明，相较于现有基线方法，vLLM-Omni 最高可将任务完成时间（Job Completion Time, JCT）缩短 91.4%。本项目的源代码已开源，地址为：https://github.com/vllm-project/vllm-omni。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有AI模型服务系统（如vLLM、Triton）针对单一模态或单一生成范式（如纯自回归文本生成或纯扩散图像生成）高度优化，但无法高效支持‘any-to-any’多模态大模型——即同时处理文本、图像、视频、音频并支持任意输入输出组合（如图像→文本、语音→视频、文本+图像→视频等）的复杂流水线。这类模型由异构组件（LLM、扩散Transformer、编码器/解码器等）深度耦合构成，而当前系统缺乏对跨阶段依赖、动态数据路由、异构计算资源协同调度的原生支持，导致手动集成时性能严重下降（如高延迟、低GPU利用率、请求阻塞）。这是一个新兴且关键的问题，随Qwen2-VL、LLaVA-NeXT、Video-LLaMA2、AudioPaLM等any-to-any模型兴起而凸显，此前无系统性服务方案。
关键思路

提出‘阶段抽象（Stage Abstraction）’与‘解耦式阶段执行后端（Disaggregated Stage Execution Backend）’双核心设计：（1）将any-to-any模型显式建模为有向无环图（DAG），每个节点是一个语义清晰、接口标准化的‘stage’（如‘vision encoder’、‘cross-modal fusion LLM’、‘video diffusion decoder’），支持用户按架构意图灵活拆分；（2）每个stage独立运行在专用引擎（LLM引擎或Diffusion引擎）上，支持stage级请求批处理、GPU资源弹性切分（如encoder用A10，diffusion用H100）、统一轻量级inter-stage connector（基于共享内存+零拷贝序列化）实现低开销数据路由。本质是将‘单体模型服务’范式升级为‘可编排的微服务化多模态流水线服务’范式。
其它亮点

• 实验在真实any-to-any工作负载（含Qwen2-VL推理、Text+Image→Video合成、ASR+VQA联合任务）上验证，相较朴素串行部署、Naive vLLM+Diffusers拼接、Triton Ensemble，JCT最高降低91.4%，端到端吞吐提升5.8×；• 支持细粒度监控（per-stage P99延迟、GPU显存/计算利用率热力图）与动态扩缩容；• 代码完全开源（GitHub: vllm-project/vllm-omni），含DAG定义DSL、stage注册API、benchmark suite及Qwen2-VL/OmniLMM适配示例；• 值得深入的方向：stage间token-level流控机制、跨stage KV缓存复用、面向边缘设备的stage卸载策略、与MoE架构协同的稀疏stage调度。
相关研究

• vLLM (2023, USENIX ATC) —— 高效LLM服务系统，但仅限自回归文本；• TensorRT-LLM (NVIDIA, 2023) —— 优化推理引擎，不支持多模态DAG；• Diffusers + Triton (Hugging Face, 2022–2024) —— 扩散模型服务方案，缺乏与LLM协同调度能力；• OmniInfer (2024, arXiv:2402.17805) —— 提出多模态服务概念，但未提供系统实现与stage解耦架构；• MLC LLM (2023, MLSys) —— 端侧多模态编译优化，聚焦模型压缩而非服务调度。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问