来源:机器之心
在社交活动中,大语言模型既可以是你的合作伙伴(partner),也可以成为你的导师(mentor)。
然而,构建和部署 AI Partner 并非易事,比如很难保持模拟人物的风格、行为和情感特征的一致性。而开发 AI Mentor 在很大程度上依赖于领域专业知识、情境感知和反馈效率等因素。
为了解决上述问题,研究者提出通过 LLM 进行社交技能训练的通用方法,分四个步骤完成:
了解如何解决问题的技能(例如,解决冲突);
设计一个 AI partner 来模拟对话,让学习者(即用户)接触目标过程,进行练习;
创建一个 AI mentor 来提供反馈;
将这两个智能体集成到模拟环境中,以便用户学习。
研究者表示,APAM 框架的理想受众是初学者,但是有经验的人也可以使用 APAM 系统来刷新他们的知识。
APAM 可以在许多领域提高学习者的技能,表 1 列举了一些应用场景,例如如何倾听、心理健康咨询等。不过 APAM 框架不仅限于这些典型的例子,论文第 6 节有更多的介绍。
虽然 LLM 作为社交技能训练工具潜力巨大,因为它们可以生成连贯且自然的文本。然而,这种灵活性往往伴随着有限的可控性。
出于安全考虑, APAM 框架为如何应用 AI 提供了一系列措施,他们将使用过程分解为一个连续体:AI Partner 连续体以及 AI Mentor 连续体,每个连续体都由三个模型完成(如图 1 所示)。
评估结果
AI partner 和 AI mentor 的评估是一个重大挑战,基于 APAM 的工具涉及复杂的计算系统以及与不同需求和背景的用户的交互。
为了将这些训练工具开发为一个领域,评估措施需要超越自然语言处理中传统的指标,转而采用来自多个相关领域和利益相关者的方案。纳入多学科视角将有助于评估此类系统的实证性能、基于用户角度的可用性以及对用户和社区的长期影响。
目前,文本生成的研究主要集中在内在评估上,即通过预定义的规则或交互来评估输出的质量。
在下表 2 中,研究者主要划分为全自动评估和用户驱动评估。基于参考的指标(如困惑度或 Kullback-Leibler 散度)通常用于系统质量自动评估,它们既简单又允许通过演示对所需行为进行丰富的定义。
表 2 详细列出了以往工作中适用于 APAM 系统的内在和外在评估程序。目前,自然语言处理从业者主要关注对系统的内在评估。本文中,研究者强调使用既定的教育成果衡量标准来评估 APAM 系统的重要性。
评论
沙发等你来抢