- 简介大型语言模型(LLMs)可以通过生成带有引用的文本来增强可信度和可验证性。然而,现有的任务和评估方法主要限于句子级别的陈述,忽略了可以出现在句子任何位置的位置细粒度引用的重要性。为了促进对细粒度引文生成的进一步探索,我们提出了ALiiCE,这是该任务的第一个自动评估框架。我们的框架首先通过依赖分析将句子主张解析为原子主张,然后在原子主张级别计算引文质量。ALiiCE引入了三个新的度量标准,用于位置细粒度引文质量评估,包括位置细粒度引用召回率和精度,以及引文位置的变异系数。我们评估了几个LLMs在两个长篇QA数据集上的位置细粒度引文生成性能。我们的实验和分析证明了ALiiCE的有效性和合理性。结果还表明,现有的LLMs仍然难以提供位置细粒度的引文。
- 图表
- 解决问题本论文旨在解决现有任务和评估方法主要限于句子级别陈述的问题,忽视了可以出现在句子任何位置的位置细粒度引文的重要性。
- 关键思路该论文提出了ALiiCE,这是一个用于位置细粒度引文生成的自动评估框架,通过依赖分析将句子主张解析为原子主张,然后计算原子主张级别的引文质量。
- 其它亮点ALiiCE引入了三个新的度量标准,包括位置细粒度引文召回率和精度以及引文位置的变异系数。该论文在两个长形式QA数据集上评估了几个LLM的位置细粒度引文生成性能。实验结果表明,现有的LLM仍然难以提供位置细粒度引文。
- 最近的相关研究包括:1.《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》2.《GPT-2: Language Models are Unsupervised Multitask Learners》
沙发等你来抢
去评论
评论
沙发等你来抢