AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis

简介

本文介绍了我们团队对SemEval-2024 Task-6 - SHROOM进行的参赛作品，该任务是关于幻觉和相关可观察过度生成错误的共享任务。参赛者被要求执行二元分类，以识别流畅过度生成幻觉的情况。我们的实验包括对幻觉检测和自然语言推理（NLI）模型进行微调。最成功的策略涉及创建这些模型的集合，导致在模型无关和模型感知数据集上的准确率分别达到了77.8％和79.9％，超过了组织者的基线，并在与竞赛中表现最佳的结果进行对比时取得了显着的成果，后者分别报告了84.7％和81.3％的准确率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决语言生成模型中出现的幻觉问题，即过度生成的情况。作者通过二分类模型对流畅的过度生成幻觉进行识别。
关键思路

本文的关键思路是使用预训练模型和自然语言推理模型进行微调，最终将这些模型的结果进行集成，从而提高幻觉识别的准确率。
其它亮点

本文的实验结果表明，通过模型集成，可以在不同的数据集上获得高准确率，同时比组织者提供的基准结果更好。此外，本文还提供了数据集和代码，以便其他研究者进行进一步的研究。
相关研究

在这个领域中，最近的相关研究包括：'A Survey of Hallucination in Language Models'和'Overcoming Catastrophic Forgetting in Neural Networks for Hallucination Detection'等。

AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis

提问交流

提问交流