Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

简介

我们提出了一种新的方法来衡量检索增强大语言模型（RAG）的任务特定准确性。通过在与任务相关的文档语料库上基于多项选择题生成的合成考试中对RAG进行评分来进行评估。我们的方法是一种自动化、成本效益高、可解释性好且鲁棒性强的策略，可选择RAG系统的最佳组件。我们利用项目反应理论（IRT）来估计考试的质量及其对任务特定准确性的信息量。IRT还提供了一种自然的方法，通过消除不足以说明模型能力的考试问题来迭代地改进考试。我们在四个新的基于Arxiv摘要、StackExchange问题、AWS DevOps故障排除指南和SEC文件的开放式问答任务上展示了我们的方法。此外，我们的实验揭示了影响RAG性能的更一般性的因素，如大小、检索机制、提示和微调。最重要的是，我们的发现表明，选择正确的检索算法通常比仅使用更大的语言模型带来更大的性能提升。
图表
解决问题

本论文旨在提出一种新的方法，以衡量Retrieval-Augmented Large Language Models (RAG)的任务特定准确性。它试图解决如何自动化评估RAG系统的问题。
关键思路

本论文提出了一种基于Item Response Theory（IRT）的方法，通过评估基于任务相关文档的多项选择题来评估RAG系统的性能。此外，论文还使用IRT来优化测试，消除不足够信息的测试问题。
其它亮点

论文的实验使用了四个新的开放式问答任务，基于Arxiv摘要、StackExchange问题、AWS DevOps故障排除指南和SEC文件。实验还揭示了影响RAG性能的因素，如模型大小、检索机制、提示和微调。此外，论文发现，选择正确的检索算法通常比仅使用更大的语言模型带来更大的性能提升。
相关研究

最近的相关研究包括使用BERT的检索增强模型和使用大规模预训练语言模型的问答系统。

Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

评论