The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input

Alon Jacovi ,

Andrew Wang ,

Chris Alberti ,

Connie Tao ,

Jon Lipovetz ,

Kate Olszewska ,

Lukas Haas ,

Michelle Liu ,

Nate Keating ,

Adam Bloniarz ,

Carl Saroufim ,

Corey Fry ,

Dror Marcus ,

Doron Kukliansky ,

Gaurav Singh Tomar ,

James Swirhun ,

Jinwei Xing ,

Lily Wang ,

Madhu Gurumurthy ,

Michael Aaron ,

Moran Ambar ,

Rachana Fellinger ,

Rui Wang ,

Zizhao Zhang ,

Sasha Goldshtein ,

Dipanjan Das

热度 1431

2025年01月06日

简介

我们引入了FACTS Grounding，在线排行榜和相关基准测试，用于评估语言模型根据用户提示中给定的上下文生成事实准确文本的能力。在我们的基准测试中，每个提示包括一个用户请求和一篇完整的文档，最大长度为32,000个标记，要求进行长篇回答。这些长篇回答必须完全基于提供的上下文文档，并满足用户请求。模型评估分为两个阶段：（1）如果回答未能满足用户请求，则会被取消资格；（2）如果回答完全基于提供的文档，则被判定为准确。自动化评估模型经过全面评估，使用保留的测试集选择最佳的提示模板，最终的事实性得分是多个评估模型的综合结果，以减少评估偏差。FACTS Grounding排行榜将随着时间积极维护，并包含公共和私有分割，以便外部参与的同时保护排行榜的完整性。该排行榜可在https://www.kaggle.com/facts-leaderboard找到。
图表
解决问题

FACTS Grounding旨在解决语言模型生成文本时的事实准确性问题，确保模型的响应完全基于给定的上下文文档，并且能够满足用户的请求。这是一个在长文档理解和生成准确回答方面的新挑战。
关键思路

关键思路是通过创建一个包含用户请求和完整文档（最多32k个标记）的基准测试，要求模型生成长篇幅的回答，这些回答必须完全基于提供的文档内容。此外，通过两阶段的自动化评估系统来确保模型的回答既符合用户需求又具有事实依据，从而提高事实准确性。
其它亮点

该研究引入了一个新的在线排行榜和基准测试，用于评估语言模型的事实准确性；采用了最大长度为32k个令牌的全文档作为输入；设计了双阶段评估机制以确保回答的相关性和准确性；使用多个评估模型来减少偏见；提供了公共和私有数据集分割以保持排行榜的公正性。代码和数据集尚未提及是否开源，但其方法论和严格的评估体系值得进一步探索。
相关研究

最近的研究中，也有其他工作关注于提高语言模型的事实一致性，如FactCC、FEQA等工具，以及TruthfulQA这样的基准测试。相关的论文标题包括《Evaluating the Factual Consistency of Abstractive Text Summarization》和《TruthfulQA: Measuring How Models Mimic Human Factuality Judgments》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论