Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures

2024年05月07日
  • 简介
    大型语言模型(LLMs)部署在边缘设备上通过微调和更新它们的某些参数来学习。尽管这种学习方法可以优化以减少资源利用,但总体所需资源仍然是边缘设备的沉重负担。相反,检索增强生成(RAG)是一种资源高效的LLM学习方法,可以提高LLM生成内容的质量而无需更新模型参数。然而,基于RAG的LLM可能会在每次用户-LLM交互中涉及对配置文件数据的重复搜索。这种搜索可能会导致显着的延迟以及用户数据的积累。传统的降低延迟的努力会导致限制保存的用户数据的大小,因此随着用户数据的不断增长,降低了RAG的可扩展性。如何解决在边缘设备上的RAG的延迟和可扩展性的限制仍然是一个开放的问题。在本文中,我们提出了一个新的框架,通过计算-内存(CiM)架构加速RAG。它通过在内存内执行原地计算来加速矩阵乘法,同时避免计算单元和内存之间昂贵的数据传输。我们的框架,Robust CiM-backed RAG(RoCR),利用一种基于对比学习的新型训练方法和噪声感知训练,可以使RAG能够在CiM上高效地搜索配置文件数据。据我们所知,这是首次利用CiM加速RAG的工作。
  • 图表
  • 解决问题
    如何解决在边缘设备上使用Retrieval-Augmented Generation (RAG) 方法时的延迟和可扩展性问题?
  • 关键思路
    通过使用计算存储器 (CiM) 架构来加速 RAG,并提出了一种基于对比学习和噪声感知训练的 Robust CiM-backed RAG (RoCR) 框架。
  • 其它亮点
    RoCR 框架可以在边缘设备上高效地搜索个人资料数据,实现了 RAG 的加速。论文使用了对比学习和噪声感知训练来提高模型的准确性和鲁棒性。实验结果表明,RoCR 框架在多个数据集上取得了优异的性能,并且可以扩展到更大的数据集上。
  • 相关研究
    近期在这个领域的相关研究包括:《Large-Scale Retrieval-Augmented Generation for Open-Domain Question Answering》、《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论