Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures

简介

大型语言模型（LLMs）部署在边缘设备上通过微调和更新它们的某些参数来学习。尽管这种学习方法可以优化以减少资源利用，但总体所需资源仍然是边缘设备的沉重负担。相反，检索增强生成（RAG）是一种资源高效的LLM学习方法，可以提高LLM生成内容的质量而无需更新模型参数。然而，基于RAG的LLM可能会在每次用户-LLM交互中涉及对配置文件数据的重复搜索。这种搜索可能会导致显着的延迟以及用户数据的积累。传统的降低延迟的努力会导致限制保存的用户数据的大小，因此随着用户数据的不断增长，降低了RAG的可扩展性。如何解决在边缘设备上的RAG的延迟和可扩展性的限制仍然是一个开放的问题。在本文中，我们提出了一个新的框架，通过计算-内存（CiM）架构加速RAG。它通过在内存内执行原地计算来加速矩阵乘法，同时避免计算单元和内存之间昂贵的数据传输。我们的框架，Robust CiM-backed RAG（RoCR），利用一种基于对比学习的新型训练方法和噪声感知训练，可以使RAG能够在CiM上高效地搜索配置文件数据。据我们所知，这是首次利用CiM加速RAG的工作。
图表
解决问题

如何解决在边缘设备上使用Retrieval-Augmented Generation (RAG) 方法时的延迟和可扩展性问题？
关键思路

通过使用计算存储器 (CiM) 架构来加速 RAG，并提出了一种基于对比学习和噪声感知训练的 Robust CiM-backed RAG (RoCR) 框架。
其它亮点

RoCR 框架可以在边缘设备上高效地搜索个人资料数据，实现了 RAG 的加速。论文使用了对比学习和噪声感知训练来提高模型的准确性和鲁棒性。实验结果表明，RoCR 框架在多个数据集上取得了优异的性能，并且可以扩展到更大的数据集上。
相关研究

近期在这个领域的相关研究包括：《Large-Scale Retrieval-Augmented Generation for Open-Domain Question Answering》、《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》等。

Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures

评论