SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation

2024年05月17日
  • 简介
    组合泛化是语言模型的一个重要能力,有许多不同的表现形式。在数据到文本生成领域,以前的研究仅限于称为系统性的单一表现形式,并缺乏对大型语言模型(LLM)的考虑,这些模型无法完全覆盖实际应用场景。在这项工作中,我们提出了SPOR,一种全面实用的数据到文本生成中组合泛化评估方法。SPOR包括四个方面的表现形式(系统性、生产力、顺序不变性和规则可学性),并允许在现有数据集的基础上进行高质量的评估,无需额外的手动注释。我们在两个不同的数据集上展示了SPOR,并评估了一些现有的语言模型,包括LLM。我们发现这些模型在评估的各个方面都存在不足,需要进一步改进。我们的工作表明,有必要对数据到文本生成中组合泛化的不同表现形式进行全面的研究,并提供了一个评估框架。
  • 图表
  • 解决问题
    论文旨在提出一种全面实用的评估方法SPOR,来评估数据到文本生成中的组合泛化能力。此前的研究有限,缺乏对大型语言模型的考虑,因此需要更全面的研究。
  • 关键思路
    SPOR是一种全面实用的评估方法,包括四个方面的组合泛化能力表现,并且不需要额外的手动标注。
  • 其它亮点
    论文使用SPOR评估了两个数据集以及一些现有的语言模型,发现这些模型在不同的评估方面都存在不足,需要进一步改进。该研究表明有必要对数据到文本生成中的组合泛化能力进行全面研究,并提供了一个评估框架。
  • 相关研究
    与该研究相关的其他研究包括《Systematic Generalization: What Is Required and Can It Be Learned?》、《Compositional Generalization in Natural Language Processing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论