- 简介大型语言模型(LLMs)推动了各种人工智能对话代理的发展,包括模仿不同角色和人类行为的角色扮演对话代理。尽管以前的研究主要集中在增强这些代理的对话能力、角色特定知识和风格属性方面,但在评估它们的社交智能方面存在明显的差距。在本文中,我们介绍了RoleInteract,这是第一个旨在系统评估个体和社交互动组两个层面上角色扮演对话代理社交性的基准。该基准是从各种来源构建的,涵盖了500个角色和超过6,000个问题提示和30,800个多轮角色扮演话语。我们使用主流的开源和闭源LLMs对这个基准进行了全面的评估。我们发现,在个体层面表现出色的代理并不意味着它们在群体层面上熟练。此外,个体的行为可能会因为群体中其他代理的影响而发生变化。RoleInteract的实验结果证实了它作为评估角色扮演对话代理社交互动的测试平台的重要性。这个基准可以在https://github.com/X-PLUG/RoleInteract上公开访问。
-
- 图表
- 解决问题本论文旨在填补评估角色扮演对话代理社交智能的空白,设计了一个名为RoleInteract的基准测试,用于系统地评估角色扮演对话代理在个人和群体社交交互的水平。
- 关键思路本文提出了一个名为RoleInteract的基准测试,用于评估角色扮演对话代理的社交智能,该测试从多个来源构建,覆盖了500个角色和超过6,000个问题提示以及30,800个多轮角色扮演话语。实验结果表明,在个人水平表现出色的代理并不意味着它们在群体水平上也表现出色,而且个体行为可能会因为群体中其他代理的影响而发生漂移。
- 其它亮点本文设计了一个名为RoleInteract的基准测试,用于评估角色扮演对话代理的社交智能,该测试从多个来源构建,覆盖了500个角色和超过6,000个问题提示以及30,800个多轮角色扮演话语。作者使用了主流的开源和闭源LLMs进行了全面的评估,并发现在个人水平表现出色的代理并不意味着它们在群体水平上也表现出色,而且个体行为可能会因为群体中其他代理的影响而发生漂移。该基准测试的公开数据集和代码可在GitHub上获得。
- 与本文相关的研究包括自然语言处理、对话生成和社交智能等领域的研究。其中一些相关论文包括“Towards Empathetic Open-domain Conversation Models: A New Benchmark and Dataset”、“A Survey of Evaluation Methods for Dialogue Systems”和“Socializing Artificial Agents: A Review of Current Approaches and Open Challenges”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流