RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

2023年12月26日
  • 简介
    本文介绍了一个双语基准测试 RoleEval,旨在评估大型语言模型(LLMs)的角色知识的记忆、利用和推理能力,这对于建立与现实世界的联系和提供更沉浸式的交互至关重要。RoleEval 包括 RoleEval-Global(包括国际知名人物)和 RoleEval-Chinese(包括中国流行人物),共有 6000 道中英文并列的多项选择题,涵盖了来自名人、动漫、漫画、电影、电视剧、游戏和小说等各个领域的 300 个有影响力的人物和虚构人物。这些问题涵盖了基本知识和多跳推理能力,旨在系统地探究人物的个人信息、关系、能力和经历等各个方面。为了保持高标准,作者采用了自动和人工验证相结合的混合质量检查过程,确保问题具有多样性、挑战性和区分性。 作者在各种开源和专有的大型语言模型下进行了 RoleEval 的广泛评估,包括零样本和少样本情况,发现了有见地的结果。值得注意的是,虽然 GPT-4 在 RoleEval-Global 上表现优于其他模型,但中国的 LLMs 在 RoleEval-Chinese 上表现出色,突显了显著的知识分布差异。作者期望 RoleEval 将凸显评估各种语言和文化背景下的基础模型的角色知识的重要性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在引入一个双语基准测试RoleEval,以评估大型语言模型(LLMs)在角色知识的记忆、利用和推理能力方面的表现,并探究不同语言和文化背景下的角色知识分布差异。
  • 关键思路
    RoleEval是一个双语基准测试,包括RoleEval-Global和RoleEval-Chinese两部分,共有6000个中英文并行多选题,涵盖了来自名人、动漫、漫画、电影、电视剧、游戏和小说等各个领域的300个有影响力的人物和虚构角色,旨在系统地探究这些角色的个人信息、关系、能力和经历等各个方面,以评估LLMs的角色知识记忆、利用和推理能力。
  • 其它亮点
    论文采用自动和人工验证相结合的质量检查流程,确保问题多样、具有挑战性和区分度。在多个开源和专有LLMs上进行了广泛的评估,发现GPT-4在RoleEval-Global上表现最好,而中文LLMs在RoleEval-Chinese上表现出色,突显了角色知识分布的显著差异。这篇论文的亮点包括实验设计、数据集使用以及对角色知识的评估方法。
  • 相关研究
    在这个领域中,最近的相关研究包括:《XL-NBT: Cross-Lingual Natural Language Brain Teasers for Multilingual and Cross-Lingual NLU》、《MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问