ALiiCE: Evaluating Positional Fine-grained Citation Generation

2024年06月19日
  • 简介
    大型语言模型(LLMs)可以通过生成带有引用的文本来增强可信度和可验证性。然而,现有的任务和评估方法主要限于句子级别的陈述,忽略了可以出现在句子任何位置的位置细粒度引用的重要性。为了促进对细粒度引文生成的进一步探索,我们提出了ALiiCE,这是该任务的第一个自动评估框架。我们的框架首先通过依赖分析将句子主张解析为原子主张,然后在原子主张级别计算引文质量。ALiiCE引入了三个新的度量标准,用于位置细粒度引文质量评估,包括位置细粒度引用召回率和精度,以及引文位置的变异系数。我们评估了几个LLMs在两个长篇QA数据集上的位置细粒度引文生成性能。我们的实验和分析证明了ALiiCE的有效性和合理性。结果还表明,现有的LLMs仍然难以提供位置细粒度的引文。
  • 图表
  • 解决问题
    本论文旨在解决现有任务和评估方法主要限于句子级别陈述的问题,忽视了可以出现在句子任何位置的位置细粒度引文的重要性。
  • 关键思路
    该论文提出了ALiiCE,这是一个用于位置细粒度引文生成的自动评估框架,通过依赖分析将句子主张解析为原子主张,然后计算原子主张级别的引文质量。
  • 其它亮点
    ALiiCE引入了三个新的度量标准,包括位置细粒度引文召回率和精度以及引文位置的变异系数。该论文在两个长形式QA数据集上评估了几个LLM的位置细粒度引文生成性能。实验结果表明,现有的LLM仍然难以提供位置细粒度引文。
  • 相关研究
    最近的相关研究包括:1.《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》2.《GPT-2: Language Models are Unsupervised Multitask Learners》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论