Automated Long Answer Grading with RiceChem Dataset

2024年04月22日
  • 简介
    我们在教育自然语言处理领域引入了一个新的研究领域:自动长答案评分(ALAG)。与自动短答案评分(ASAG)和自动文章评分(AEG)不同,ALAG由于基于事实的长答案的复杂性和多方面性而具有独特的挑战。为了研究ALAG,我们引入了RiceChem数据集,该数据集源自一门大学化学课程,包含了学生对长答案问题的真实回答,平均单词数明显高于典型的ASAG数据集。我们提出了一种新颖的ALAG方法,将其作为一个规则证明问题进行了阐述,采用自然语言推理模型来验证学生回答中是否涵盖了每个标准,每个标准由一个规则条目表示。这种方法使得可以有效地使用MNLI进行迁移学习,从而显著提高了模型在RiceChem数据集上的性能。我们展示了规则表述在ALAG中的重要性,展示了其在捕捉学生回答细微差别方面相对于传统的基于分数的方法的优越性。我们还研究了模型在冷启动场景下的性能,为在教育环境中实际部署提供了有价值的见解。最后,我们在RiceChem上对最先进的开源大语言模型(LLMs)进行了基准测试,并将其结果与GPT模型进行了比较,凸显了ALAG相对于ASAG的复杂性增加。尽管利用了基于规则的方法和从MNLI进行的迁移学习的好处,但LLMs在RiceChem上的较低性能凸显了ALAG任务所带来的重大困难。通过这项工作,我们为评分长的基于事实的答案提供了新的视角,并引入了一个新的数据集,以刺激这一重要领域的进一步研究。代码:\url{https://github.com/luffycodes/Automated-Long-Answer-Grading}。
  • 图表
  • 解决问题
    本论文介绍了一种新的自然语言处理领域的研究方向:自动长答案评分(ALAG),旨在解决长答案评分的复杂性和多方面性问题。该论文提出了一种基于评分标准的方法,将ALAG问题转化为评分标准的蕴含问题,并使用自然语言推理模型来验证学生答案是否满足每个评分标准。同时,该论文还提出了RiceChem数据集,用于评估模型性能。
  • 关键思路
    论文提出了一种基于评分标准的方法,将ALAG问题转化为评分标准的蕴含问题,并使用自然语言推理模型来验证学生答案是否满足每个评分标准。这种方法能够有效地利用MNLI进行迁移学习,显著提高模型在RiceChem数据集上的性能。同时,该方法相对于传统的基于分数的方法更能捕捉学生答案的细微差别。
  • 其它亮点
    该论文提出了一种新的自然语言处理领域的研究方向:自动长答案评分(ALAG),并提出了RiceChem数据集。论文使用自然语言推理模型来验证学生答案是否满足每个评分标准,并通过MNLI进行迁移学习,显著提高了模型性能。此外,论文还比较了开源的大型语言模型(LLMs)和GPT模型在RiceChem数据集上的表现,强调了ALAG相对于ASAG的复杂性。论文开源了代码,为后续研究提供了便利。
  • 相关研究
    与该论文相关的研究包括自动短答案评分(ASAG)和自动文章评分(AEG)。最近的相关研究包括:1. Automated Essay Scoring with the Transformer Model;2. A Survey of Automated Essay Scoring and Natural Language Processing Techniques。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论