NEW

M100: An Orchestrated Dataflow Architecture Powering General AI Computing

Yan Xie ,

Changkui Mao ,

Changsong Wu ,

Chao Lu ,

Chao Suo ,

Cheng Qian ,

Chun Yang ,

Danyang Zhu ,

Hengchang Xiong ,

Hongzhan Lu ,

Hongzhen Liu ,

Jiafu Liu ,

Jie Chen ,

Jie Dai ,

Junfeng Tang ,

Kai Liu ,

Kun Li ,

Lipeng Ge ,

Meng Sun ,

Min Luo ,

Peng Chen ,

Peng Wang ,

Shaodong Yang ,

Shibin Tang ,

Shibo Chen ,

Weikang Zhang ,

Xiao Ling ,

Xiaobo Du ,

Xin Wu ,

Yang Liu ,

Yi Jiang ,

Yihua Jin ,

Yin Huang ,

Yuli Zhang ,

Zhen Yuan ,

Zhiyuan Man ,

Zhongxiao Yao

热度 90

2026年04月20日

简介

随着基于深度学习的人工智能技术迅猛发展，业界对通用人工智能计算架构的需求持续攀升。尽管基于通用图形处理器（GPGPU）的架构在各类人工智能负载上具备良好的通用性，但其在能效与成本效益方面往往表现欠佳。各类专用领域架构（DSA）虽在特定人工智能任务上性能卓越，却难以横向拓展至更广泛的应用场景，亦难以适应人工智能技术日新月异的发展节奏。M100正是理想汽车对此所提出的系统性回应：它是一款面向自动驾驶（AD）、大语言模型（LLM）及智能人机交互等关键领域的高性能、高性价比人工智能推理架构——而这三大方向，恰恰是当今最具竞争力的智能汽车平台的核心支柱。M100采用数据流并行架构，通过编译器与硬件的协同设计，不仅统筹调度计算任务，更关键的是对数据在时间与空间维度上的流动进行精细化编排。依托数据流计算固有的高能效特性，我们的软硬件协同设计在显著提升系统整体性能的同时，有效降低了硬件复杂度与制造成本。M100大幅摒弃了传统缓存机制：张量计算完全由编译器与运行时系统联合管理的数据流驱动，这些数据流在计算单元与片上/片外存储器之间直接传输，从而在效率与可扩展性两方面均超越了传统基于缓存的系统。另一项核心设计原则，是在编译器、固件与硬件各层级中，精准选定调度、指令发射与执行所需的操作粒度。我们深入分析人工智能负载的共性特征后，确立“张量”作为基础数据单元。实际验证表明，M100具备出色的通用人工智能计算能力，可高效支撑多种推理应用场景，包括面向自动驾驶的UniAD框架以及面向大语言模型的LLaMA系列模型。基准测试结果显示，在自动驾驶相关应用中，M100相较GPGPU架构展现出更高的硬件利用率与更优的整体性能，为未来通用人工智能计算架构的发展提供了极具前景的技术路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有通用AI计算架构（如GPGPU）在自动驾驶（AD）、大语言模型（LLM）推理等车载关键AI场景中，存在能效低、硬件成本高、内存墙严重等问题；而专用架构（DSA）虽在特定任务上高效，但泛化性差、难以适应快速演进的AI算法与多模态工作负载。论文旨在验证：是否存在一种兼顾高性能、高能效、低成本且具备跨域泛化能力的新型AI推理架构，尤其面向智能汽车这一对实时性、可靠性、功耗与成本均极度敏感的垂直场景。
关键思路

提出M100——一种以tensor为调度与执行基本单元的编译器-硬件协同设计的数据流并行架构；其核心创新在于彻底摒弃传统缓存层次结构，转而由编译器与运行时联合管理确定性数据流，在时空维度上精准驱动张量在计算单元与片上/片外存储间的流动；该数据流范式将计算与数据移动解耦并静态优化，显著降低控制开销与硬件复杂度，同时提升计算单元利用率和系统可扩展性。
其它亮点

M100在真实车载AI负载（UniAD自动驾驶栈、LLaMA系列模型）上完成端到端推理验证；相比主流GPGPU，AD任务中计算单元利用率提升显著（文中称‘higher utilization’），能效比与单位成本性能更优；架构完全开源设计细节未披露，但论文明确支持多领域（AD/LLM/人机交互）统一部署；值得深入的方向包括：动态数据流弹性调度以支持在线微调、面向多模态融合的异构张量流编排、以及在车规级SoC中集成M100 IP核的可靠性验证；实验基于内部车载部署基准，未使用公开数据集（如nuScenes或OpenLLM Leaderboard），暂无开源代码信息。
相关研究

NVIDIA DRIVE Thor（2023）、Google TPU v5e（2023）、Cambricon MLU370（2022）、Tenstorrent Wormhole（2022）、Apple M-series Neural Engine（2020–2023）、Graphcore IPU-M2000（2021）、Cerebras CS-2（2021）、Microsoft Catapult FPGA-based AI Accelerator（2016–2020）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问