Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring

简介

生成能够证明评分决策合理性的理由一直是促进自动评分系统可解释性的一种有前途的方式。然而，现有方法的准确性不及基于分类器的方法。此外，生成的理由通常包含虚构信息。为了解决这些问题，我们提出了一种新颖的框架，能够生成更真实的理由，并且更重要的是，与基于分类器的黑盒评分系统的性能相匹配。我们首先通过查询大型语言模型（LLMs）来模仿人类评估过程，生成思维树。然后，我们总结每个思维树路径的中间评估决策，以创建合成理由数据和理由偏好数据。最后，我们利用生成的合成数据通过两步训练过程来校准LLMs：监督微调和偏好优化。广泛的实验结果表明，我们的框架在QWK得分方面比之前的工作提高了38％的评估性能，同时生成了更高质量的理由，这得到了人类评估者和LLMs的认可。我们的工作揭示了使用从思维树路径获得的合成偏好数据执行偏好优化的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种新的框架，用于生成更准确、更可靠的评分解释，以及提高评分性能。
关键思路

通过模仿人类评估过程，利用大型语言模型生成思考树，从中提取中间评估决策，创建综合评估数据和评估偏好数据，并利用生成的综合数据通过两步训练过程进行大型语言模型校准。
其它亮点

实验结果表明，该框架在QWK得分方面比之前的工作提高了38％，同时产生了更高质量的评分解释，并受到人类评估者和大型语言模型的认可。
相关研究

与现有的生成评分解释的方法相比，该框架能够提高评分性能并生成更准确的评分解释。

Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring

提问交流

提问交流