- 简介我们提供了一个全面的评估,评估了检索增强生成(RAG)应用中的答案质量,使用了一种新的评分系统vRAG-Eval,旨在评估正确性、完整性和诚实度。我们进一步将上述质量方面的评分映射到二进制分数,表示接受或拒绝决策,反映了常用于聊天应用程序中的直观的“赞”或“踩”手势。这种方法适用于实际业务场景,其中清晰的决策意见至关重要。我们使用vRAG-Eval对两个大型语言模型(LLM)进行评估,评估由纯RAG应用程序生成的答案质量。我们将这些评估与人类专家判断进行比较,并发现GPT-4的评估与人类专家的评估具有相当的一致性,在接受或拒绝决策上达成83%的一致性。这项研究突显了LLMs作为可靠的评估者在封闭域、封闭式结束设置中的潜力,特别是当人类评估需要大量资源时。
-
- 图表
- 解决问题论文旨在评估检索增强生成(Retrieval-Augmented Generation,RAG)应用中答案质量的可行性,为此提出了vRAG-Eval评分系统,并将其应用于两个大型语言模型的评估中,以验证其是否能够在商业领域中作为可靠的评估器。
- 关键思路论文提出了一种新的评分系统vRAG-Eval,用于评估RAG应用中答案的正确性、完整性和诚实性,并将这些质量方面的评估映射到二进制分数,以反映常用于聊天应用程序中的直观“赞”或“踩”的手势。
- 其它亮点论文将vRAG-Eval应用于两个大型语言模型的评估中,并与人类专家判断进行比较,发现GPT-4的评估与人类专家的评估有着相当大的一致性,达到了83%的接受或拒绝决策的一致性。实验结果表明,LLMs在封闭领域、封闭问题的情况下作为可靠的评估器具有潜力,特别是当人类评估需要大量资源时。
- 最近在这个领域中,还有一些相关的研究,如OpenAI的GPT-3和GPT-4模型,以及Facebook的DPR模型等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流