M100: An Orchestrated Dataflow Architecture Powering General AI Computing

2026年04月20日
  • 简介
    随着基于深度学习的人工智能技术迅猛发展,业界对通用人工智能计算架构的需求持续攀升。尽管基于通用图形处理器(GPGPU)的架构在各类人工智能负载上具备良好的通用性,但其在能效与成本效益方面往往表现欠佳。各类专用领域架构(DSA)虽在特定人工智能任务上性能卓越,却难以横向拓展至更广泛的应用场景,亦难以适应人工智能技术日新月异的发展节奏。M100正是理想汽车对此所提出的系统性回应:它是一款面向自动驾驶(AD)、大语言模型(LLM)及智能人机交互等关键领域的高性能、高性价比人工智能推理架构——而这三大方向,恰恰是当今最具竞争力的智能汽车平台的核心支柱。M100采用数据流并行架构,通过编译器与硬件的协同设计,不仅统筹调度计算任务,更关键的是对数据在时间与空间维度上的流动进行精细化编排。依托数据流计算固有的高能效特性,我们的软硬件协同设计在显著提升系统整体性能的同时,有效降低了硬件复杂度与制造成本。M100大幅摒弃了传统缓存机制:张量计算完全由编译器与运行时系统联合管理的数据流驱动,这些数据流在计算单元与片上/片外存储器之间直接传输,从而在效率与可扩展性两方面均超越了传统基于缓存的系统。另一项核心设计原则,是在编译器、固件与硬件各层级中,精准选定调度、指令发射与执行所需的操作粒度。我们深入分析人工智能负载的共性特征后,确立“张量”作为基础数据单元。实际验证表明,M100具备出色的通用人工智能计算能力,可高效支撑多种推理应用场景,包括面向自动驾驶的UniAD框架以及面向大语言模型的LLaMA系列模型。基准测试结果显示,在自动驾驶相关应用中,M100相较GPGPU架构展现出更高的硬件利用率与更优的整体性能,为未来通用人工智能计算架构的发展提供了极具前景的技术路径。
  • 作者讲解
  • 图表
  • 解决问题
    现有通用AI计算架构(如GPGPU)在自动驾驶(AD)、大语言模型(LLM)推理等车载关键AI场景中,存在能效低、硬件成本高、内存墙严重等问题;而专用架构(DSA)虽在特定任务上高效,但泛化性差、难以适应快速演进的AI算法与多模态工作负载。论文旨在验证:是否存在一种兼顾高性能、高能效、低成本且具备跨域泛化能力的新型AI推理架构,尤其面向智能汽车这一对实时性、可靠性、功耗与成本均极度敏感的垂直场景。
  • 关键思路
    提出M100——一种以tensor为调度与执行基本单元的编译器-硬件协同设计的数据流并行架构;其核心创新在于彻底摒弃传统缓存层次结构,转而由编译器与运行时联合管理确定性数据流,在时空维度上精准驱动张量在计算单元与片上/片外存储间的流动;该数据流范式将计算与数据移动解耦并静态优化,显著降低控制开销与硬件复杂度,同时提升计算单元利用率和系统可扩展性。
  • 其它亮点
    M100在真实车载AI负载(UniAD自动驾驶栈、LLaMA系列模型)上完成端到端推理验证;相比主流GPGPU,AD任务中计算单元利用率提升显著(文中称‘higher utilization’),能效比与单位成本性能更优;架构完全开源设计细节未披露,但论文明确支持多领域(AD/LLM/人机交互)统一部署;值得深入的方向包括:动态数据流弹性调度以支持在线微调、面向多模态融合的异构张量流编排、以及在车规级SoC中集成M100 IP核的可靠性验证;实验基于内部车载部署基准,未使用公开数据集(如nuScenes或OpenLLM Leaderboard),暂无开源代码信息。
  • 相关研究
    NVIDIA DRIVE Thor(2023)、Google TPU v5e(2023)、Cambricon MLU370(2022)、Tenstorrent Wormhole(2022)、Apple M-series Neural Engine(2020–2023)、Graphcore IPU-M2000(2021)、Cerebras CS-2(2021)、Microsoft Catapult FPGA-based AI Accelerator(2016–2020)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问