- 简介讲故事是人类经历的重要部分,对社交互动起着至关重要的作用。因此,自动故事评估(ASE)和生成(ASG)可以在多个方面为社会带来好处,但这些任务是具有挑战性的,需要高水平的人类能力,如创造力、推理和深刻理解。同时,大型语言模型(LLM)现在在许多自然语言处理任务上实现了最先进的性能。在本文中,我们研究了LLM是否可以用作ASE人类注释者的替代品。我们对LLM评分、其他自动测量和人类注释之间的相关性进行了广泛的分析,并探讨了提示对结果和LLM行为可解释性的影响。值得注意的是,我们发现LLM在系统级评估方面优于当前的自动测量,但仍然难以提供令人满意的答案解释。
- 图表
- 解决问题论文试图探讨是否可以使用大型语言模型作为人类注释者的替代品来进行自动故事评估,并分析了LLMs与其他自动评估方法以及人类注释之间的相关性和解释性。
- 关键思路论文的关键思路是使用大型语言模型作为自动评估故事质量的替代品,并发现LLMs在系统级评估方面优于其他自动评估方法。
- 其它亮点论文分析了LLMs在自动故事评估方面的表现,并探讨了提示对结果的影响以及LLM行为的可解释性。实验使用了多个数据集,并发现LLMs在系统级评估方面优于其他自动评估方法,但仍然难以提供令人满意的答案解释。
- 相关研究包括基于神经网络的自动故事生成和评估方法,以及使用自然语言处理技术进行故事分析的研究。其中一些论文包括:Neural Story Generation with Linguistic Constraints,Story Cloze Test: A Measure of Coherence, and Using Natural Language Processing to Understand the Appeal of Horror Movies。
沙发等你来抢
去评论
评论
沙发等你来抢