Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

2024年06月20日
  • 简介
    在自动化评估检索增强生成(RAG)问答(QA)系统方面的挑战包括特定领域知识的虚构问题以及公司内部任务缺乏黄金标准基准。这导致在Infineon Technologies的产品QA任务中评估RAG变体(如RAG-Fusion(RAGF))变得困难。为解决这些问题,我们提出了一个全面的评估框架,利用大型语言模型(LLMs)基于真实用户查询和领域内文档生成大型合成查询数据集,使用LLM作为评判者对检索到的文档和答案进行评分,评估答案的质量,并使用RAGElo的自动Elo赛制来排名不同的检索增强生成(RAG)代理变体。随机抽取的合成查询的LLM评分与领域专家在相关性、准确性、完整性和精确性方面的评分呈现出中等程度的正相关性。虽然RAGF在Elo分数上表现优于RAG,但对专家注释进行的显著性分析也显示,RAGF在完整性方面显著优于RAG,但在精确性方面表现不佳。此外,Infineon的RAGF助手基于MRR@5分数显示出更高的文档相关性表现。我们发现,RAGElo与人类注释者的偏好呈积极一致,但仍需谨慎。最后,RAGF的方法基于专家注释导致更完整的答案,并基于RAGElo的评估标准提供更好的答案。
  • 图表
  • 解决问题
    提出了一个评估Retrieval-Augmented Generation(RAG)问答系统的框架,解决了领域特定知识的虚构问题和缺乏内部任务的黄金标准基准的问题。
  • 关键思路
    使用大型语言模型生成大型合成查询数据集,评估检索文档和答案的质量,使用RAGElo的自动Elo竞赛对不同变体的RAG代理进行排名。
  • 其它亮点
    通过LLM-as-a-judge对合成查询的随机样本进行评分,与领域专家评分在相关性、准确性、完整性和精度方面呈现出中等的正相关性。使用RAGF-Fusion的Elo分数优于RAG,但与专家注释的显着性分析表明,在完整性方面RAGF显著优于RAG,但在精度方面表现不佳。
  • 相关研究
    最近的相关研究包括:1.使用BERT进行自然语言处理和问答2.使用大型预训练模型进行文本生成和问答3.使用Elo评级对自然语言生成模型进行评估。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论