Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works

2024年04月19日
  • 简介
    大型语言模型(LLMs)展示了令人印象深刻的性能,并激发了众多人工智能应用,其中角色扮演代理(RPAs)特别受欢迎,尤其是虚构人物。这些RPAs的前提在于LLMs具有理解虚构作品中角色的能力。以往的努力通过基本分类任务或特征模仿来评估这种能力,未能捕捉到LLMs对角色的微妙理解。本文提出通过角色概述任务评估LLMs的角色理解能力,即从相应材料中总结角色概况,这是开发RPA的广泛采用但鲜有研究的实践。具体而言,我们从文学专家构建了CroSS数据集,并通过比较地面真实参考和它们在下游任务中的适用性来评估生成的概述。我们的实验涵盖了各种总结方法和LLMs,取得了有希望的结果。这些结果强烈验证了LLMs的角色理解能力。我们相信我们构建的资源将促进这个领域的进一步研究。资源可在https://github.com/Joanna0123/character_profiling上获得。
  • 图表
  • 解决问题
    本论文旨在评估大型语言模型(LLMs)对于虚构作品中角色理解的能力,特别是在角色建模任务中的表现。
  • 关键思路
    通过构建CroSS数据集,本论文提出了一种评估LLMs角色理解能力的新方法,即角色建模任务。该任务要求从相应的材料中总结角色概要,以便用于角色扮演代理(RPAs)的开发。
  • 其它亮点
    本论文使用各种总结方法和LLMs进行实验,并比较了地面真实参考和生成的角色概要的适用性,结果表明LLMs在角色理解方面具有很强的能力。作者还公开了构建的CroSS数据集和代码,为相关研究提供了资源。
  • 相关研究
    近期的相关研究包括基于分类任务或特征模仿的方法评估LLMs的角色理解能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论