On LLM Wizards: Identifying Large Language Models' Behaviors for Wizard of Oz Experiments

简介

“翻译：绿野仙踪（WoZ）方法是一种广泛采用的研究方法，其中一个人类巫师“扮演”一个不容易获得的技术，并与参与者互动，以引出用户行为并探索设计空间。随着现代大型语言模型（LLM）的不断发展，人们可以将LLM作为巫师应用于WoZ实验中，其可扩展性更好，成本更低，而不是传统方法。然而，缺乏关于在WoZ实验中负责任地应用LLM和系统评估LLM角色扮演能力的方法论指导。通过两项LLM驱动的WoZ研究，我们迈出了第一步，确定了实验生命周期，以便研究人员安全地将LLM整合到WoZ实验中，并解释涉及由LLM扮演的巫师的数据生成的设置。我们还提供了一种基于启发式的评估框架，允许在WoZ实验中估计LLM的角色扮演能力，并揭示LLM在规模上的行为模式。”
图表
解决问题

如何在Wizard of Oz（WoZ）实验中应用大型语言模型（LLMs）作为Wizard并解释数据？
关键思路

使用LLMs作为Wizard可以提高可扩展性和降低成本，并且可以使用启发式评估框架来评估LLMs的角色扮演能力。
其它亮点

论文提供了一个实验生命周期，以安全地整合LLMs到WoZ实验中并解释数据。同时，提供了一个启发式评估框架来估计LLMs在WoZ实验中的角色扮演能力，并揭示了LLMs的行为模式。论文还介绍了两个使用LLMs的WoZ实验，并讨论了实验设计和结果。
相关研究

近期的相关研究包括使用LLMs进行自然语言生成和对话系统的研究。

On LLM Wizards: Identifying Large Language Models' Behaviors for Wizard of Oz Experiments

评论