使用电阻式存储设备的模拟内存计算(AIMC)可以通过直接在内存中执行计算来减少深度神经网络推理任务的延迟和能耗。然而,为了实现延迟和能耗的端到端改善,AIMC必须与片上数字运算和片上通信相结合。

瑞士苏黎世 IBM 研究实验室的研究团队报告了一种采用 14 nm 互补金属氧化物半导体技术设计和制造的多核 AIMC 芯片,具有后端集成相变存储器。这个完全集成的芯片具有 64 个 AIMC 内核,通过片上通信网络互连。它还实现了数字激活函数以及涉及各个卷积层和长短期记忆单元的附加处理。

利用这种方法,研究人员通过 ResNet 和长短期记忆网络展示了接近软件等效的推理精度,同时在芯片上实现了与权重层和激活函数相关的所有计算。

对于 8 位输入/输出矩阵向量乘法,在四相(高精度)或一相(低精度)操作读取模式下,该芯片可实现每秒 16.1 或 63.1 兆次运算的最大吞吐量,能源效率分别为每秒每瓦 2.48 或 9.76 兆次运算。

该研究以「A 64-core mixed-signal in-memory compute chip based on phase-change memory for deep neural network inference」为题,于 2023 年 8 月 10 日发布在《Nature Electronics》。

该研究的作者之一、瑞士苏黎世 IBM 研究实验室的 Thanos Vasilopoulos 表示:「人脑能够在消耗很少的电量的情况下实现卓越的性能。」

IBM 的混合信号芯片的工作方式与大脑中突触相互作用的方式类似,具有 64 个模拟内存核心,每个核心都托管一组突触细胞单元。转换器确保模拟和数字状态之间的平滑转换。

据 IBM 称,这些芯片在 CIFAR-10 数据集上实现了 92.81% 的准确率,CIFAR-10 数据集是机器学习训练中广泛使用的图像集合。

Vasilopoulos 说:「我们通过 ResNet 和长短期记忆网络展示了近乎与软件相当的推理精度。」ResNet 是残差神经网络的缩写,是一种深度学习模型,可以在不影响性能的情况下对数千层神经网络进行训练。

「为了实现延迟和能耗方面的端到端改进,AIMC 必须与片上数字运算和片上通信相结合。」Vasilopoulos 解释道, 「我们开发的这种采用 14 nm 互补金属氧化物半导体技术设计和制造的多核 AIMC 芯片,具有后端集成相变存储器。」

Vasilopoulos 表示,凭借如此改进的性能,「可以在低功耗或电池受限的环境中执行大型且更复杂的工作负载。」 这包括手机、汽车和相机。

「此外,云提供商将能够使用这些芯片来降低能源成本和碳足迹。」他说。

IBM 表示,随着数字电路的未来改进,允许层间激活传输和本地内存中的中间激活存储,将允许在这些芯片上执行完全管道化的端到端推理工作负载。

Vasilopoulos 在讨论 IBM 最新成就的个人博客中表示:「通过这项工作,充分实现模拟 AI 承诺所需的许多组件,即高性能和高能效的 AI,都已经过硅验证。」

论文链接:
https://www.nature.com/articles/s41928-023-01010-1
相关报道:
https://techxplore.com/news/2023-08-ibm-analog-ai-chip-patterned.html

—— End ——

来源:ScienceAI

仅用于学术分享,若侵权请留言,即时删侵!


更多阅读

格拉斯哥大学中国博士生提出计算鬼成像架构

专家观点:最近Neuralink FDA IDE的真正含义是什么?

植入式脑机接口技术的医疗器械之路

LMDA-Net第一作者亲自讲述其设计思想

伸手运动想象训练与伸手抓取想象的关系


   加入社群  


欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBrain【备注:姓名+行业/专业】。

加QQ群:913607986


  欢迎来稿  

1.欢迎来稿。投稿咨询,请联系微信:RoseBrain

2.加入社区成为兼职创作者,请联系微信:RoseBrain



一键三连「分享」、「点赞」和「在看」

不错每一条脑机前沿进展 ~

内容中包含的图片若涉及版权问题,请及时与我们联系删除