每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Meta Knowledge for Retrieval Augmented Large Language Models
Laurent Mombaerts ,
Terry Ding ,
Adi Banerjee ,
...
2024年08月16日
检索增强生成(Retrieval Augmented Generation,RAG)是一种技术,用于增强大型语言模型(Large Language Models,LLMs)的上下文相关、时间关键或特定领域信息,而不改变底层模型参数。然而,构建能够有效合成大量和多样化文档信息的RAG系统仍然是一个重大挑战。我们引入了一种新的数据中心RAG工作流程,将传统的检索-读取系统转化为更先进的准备-重写-检索-读取框架,以实现更高的领域专家级别的知识库理解。我们的方法依赖于为每个文档生成元数据和合成的问题和答案(QA),以及引入元知识摘要(Meta Knowledge Summary,MK Summary)的新概念,用于基于元数据的文档群集。所提出的创新使得可以实现个性化用户查询增强和全面的知识库信息检索。我们的研究做出了两个重要贡献:使用LLMs作为评估器并采用新的比较性能指标,我们证明(1)使用合成问题匹配的增强查询明显优于依赖于文档分块的传统RAG管道(p < 0.01),以及(2)元知识增强查询进一步显著提高了检索精度和召回率,以及最终答案的广度、深度、相关性和特异性。我们的方法具有成本效益,使用Claude 3 Haiku每2000篇研究论文的成本不到20美元,并且可以通过任何语言或嵌入模型的微调进一步增强端到端RAG管道的性能。
2589
热度
PDF
解读
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
Siyun Zhao ,
Yuqing Yang ,
Zilong Wang ,
...
2024年09月23日
大型语言模型(LLMs)结合外部数据已经展示出在完成实际任务方面的卓越能力。将外部数据集成到LLMs中的技术,如检索增强生成(RAG)和微调,正在受到越来越多的关注和广泛应用。然而,在各个专业领域有效部署数据增强的LLMs面临着重大挑战。这些挑战涵盖了广泛的问题,从检索相关数据和准确解释用户意图到充分利用LLMs的推理能力来完成复杂任务。我们认为,对于数据增强的LLMs应用,没有一种适用于所有情况的解决方案。在实践中,表现不佳通常是由于未能正确识别任务的核心焦点或任务本质上需要混合多种能力,必须将其分解以获得更好的解决方案。在本调查中,我们提出了一种RAG任务分类方法,根据所需的外部数据类型和任务的主要焦点,将用户查询分为四个级别:显式事实查询、隐式事实查询、可解释的理由查询和隐藏的理由查询。我们定义了这些查询级别,提供相关数据集,并总结了解决这些挑战的关键挑战和最有效的技术。最后,我们讨论了将外部数据集成到LLMs中的三种主要形式:上下文、小模型和微调,突出它们各自的优点、局限性和适合解决的问题类型。这项工作旨在帮助读者彻底理解和分解构建LLM应用程序的数据要求和关键瓶颈,提供解决不同挑战的解决方案,并作为指南系统地开发这些应用程序。
594
热度
PDF
解读
Automated Red Teaming with GOAT: the Generative Offensive Agent Tester
Maya Pavlova ,
Erik Brinkman ,
Krithika Iyer ,
...
2024年10月02日
红队测试评估了大型语言模型(LLMs)如何生成违反安全训练期间设定的规范、政策和规则的内容。然而,文献中大多数现有的自动化方法并不代表人类与AI模型交互的方式。普通的AI模型用户可能没有对抗机器学习方法的高级知识或访问模型内部的权限,他们也不会花费大量时间来制作一个高效的对抗提示。相反,他们很可能利用常见的在线共享技术,利用LLMs的多回合对话特性。虽然手动测试可以解决这个问题,但是这是一种低效且通常昂贵的过程。为了解决这些限制,我们引入了生成式攻击代理测试器(GOAT),这是一个自动代理红队系统,可以模拟简单的对抗性对话,并利用多种对抗提示技术来识别LLMs中的漏洞。我们通过以一种鼓励通过可用方法、当前目标模型的响应和下一步来推理的方式来提示通用模型,从而实例化GOAT的7个红队攻击。我们的方法旨在具有可扩展性和高效性,使人类测试人员可以专注于探索新的风险领域,而自动化则覆盖已知风险领域的扩展对抗压力测试。我们介绍了GOAT的设计和评估,证明了它在识别最先进的LLMs中的漏洞方面的有效性,在JailbreakBench数据集上对Llama 3.1的ASR@10为97%,对GPT-4为88%。
337
热度
PDF
解读