RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

向作者提问

NEW

简介

本文介绍了一个双语基准测试 RoleEval，旨在评估大型语言模型（LLMs）的角色知识的记忆、利用和推理能力，这对于建立与现实世界的联系和提供更沉浸式的交互至关重要。RoleEval 包括 RoleEval-Global（包括国际知名人物）和 RoleEval-Chinese（包括中国流行人物），共有 6000 道中英文并列的多项选择题，涵盖了来自名人、动漫、漫画、电影、电视剧、游戏和小说等各个领域的 300 个有影响力的人物和虚构人物。这些问题涵盖了基本知识和多跳推理能力，旨在系统地探究人物的个人信息、关系、能力和经历等各个方面。为了保持高标准，作者采用了自动和人工验证相结合的混合质量检查过程，确保问题具有多样性、挑战性和区分性。作者在各种开源和专有的大型语言模型下进行了 RoleEval 的广泛评估，包括零样本和少样本情况，发现了有见地的结果。值得注意的是，虽然 GPT-4 在 RoleEval-Global 上表现优于其他模型，但中国的 LLMs 在 RoleEval-Chinese 上表现出色，突显了显著的知识分布差异。作者期望 RoleEval 将凸显评估各种语言和文化背景下的基础模型的角色知识的重要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在引入一个双语基准测试RoleEval，以评估大型语言模型（LLMs）在角色知识的记忆、利用和推理能力方面的表现，并探究不同语言和文化背景下的角色知识分布差异。
关键思路

RoleEval是一个双语基准测试，包括RoleEval-Global和RoleEval-Chinese两部分，共有6000个中英文并行多选题，涵盖了来自名人、动漫、漫画、电影、电视剧、游戏和小说等各个领域的300个有影响力的人物和虚构角色，旨在系统地探究这些角色的个人信息、关系、能力和经历等各个方面，以评估LLMs的角色知识记忆、利用和推理能力。
其它亮点

论文采用自动和人工验证相结合的质量检查流程，确保问题多样、具有挑战性和区分度。在多个开源和专有LLMs上进行了广泛的评估，发现GPT-4在RoleEval-Global上表现最好，而中文LLMs在RoleEval-Chinese上表现出色，突显了角色知识分布的显著差异。这篇论文的亮点包括实验设计、数据集使用以及对角色知识的评估方法。
相关研究

在这个领域中，最近的相关研究包括：《XL-NBT: Cross-Lingual Natural Language Brain Teasers for Multilingual and Cross-Lingual NLU》、《MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问