Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface

简介

像神经处理单元（NPUs）这样的加速器，与通用计算架构相比，提供了诱人的性能和效率平衡。然而，有效利用加速器的能力并不总是简单的：低级编程工具可能需要开发人员付出大量努力，而高级编程工具可能会抽象掉关键的优化特性。本研究旨在通过改进工具包 IRON 提高设计人员的效率，IRON 是一个面向接近硬件级别的 NPU 性能工程师的工具包。我们为 IRON 提供了一个更新的编程接口，其中包含新的和改进的编程构造。新接口包括可扩展的功能，用于放置和数据转换。这些贡献从以下几个方面进行了评估：1）效率，分析表明代码行数平均减少了约 26%，并且各种设计的 Halstead 度量也有所下降；2）表达能力，证明新接口支持 IRON 已经支持的广泛特性和模式；3）可扩展性，展示了新的工具在放置和分块方面的功能可以扩展以适应常见的使用场景。
图表
解决问题

该论文试图解决如何让设计师更高效地利用神经处理单元（NPU）加速器的问题，特别是通过改进编程接口来降低开发复杂度，同时保留对底层优化的控制能力。这是一个在NPU编程工具领域持续被关注的问题，但本文聚焦于特定工具IRON的改进。
关键思路

论文的关键思路是设计并实现一个更新版的IRON编程接口，包含新的编程构造和扩展功能（如放置和数据转换）。与现有工具相比，新接口不仅减少了代码量（平均减少26%），还通过简化Halstead指标提升了可维护性和效率，同时保持了原有工具的功能覆盖范围。
其它亮点

论文通过三个维度评估了新接口的有效性：1）效率方面展示了显著减少的代码量和复杂度；2）表达能力方面证明了新接口能够支持IRON原有的所有功能；3）可扩展性方面说明了新工具可以适应多种常见用例。此外，实验涵盖了多种设计场景，但未提及具体数据集或开源代码。未来值得深入研究的方向包括进一步优化接口以适配更多硬件架构以及探索自动化优化的可能性。
相关研究

最近相关领域的研究还包括《TVM: An Automated End-to-End Optimizing Compiler for Deep Learning》、《MLIR: A Unified Compiler Infrastructure for Machine Learning and Beyond》和《FlexTensor: An Automatic Tensor Program Optimization at Large Scale》等。这些研究同样关注高性能计算和深度学习编译器优化，但在具体实现上各有侧重，例如TVM关注端到端自动优化，而本文更专注于特定工具的改进。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论