CHI' 23 | 最新论文速递！大型语言模型评测：生成人机交互研究数据！

本文介绍一篇近期发表在CHI2023会议上的一篇大语言模型评测相关的论文，该论文荣获会议的Best Paper奖。数据采集是人机交互研究的瓶颈之一。因此，该论文探索了大型语言模型（LLMs）在生成用户研究数据方面的潜力，通过让LLMs扮演用户，生成相应的回答，得到的回答被称为“合成回答（Synthetic response）”。

作者使用OpenAI的GPT-3模型生成关于电子游戏艺术体验的开放式问卷回答，这是传统计算用户模型无法处理的主题。作者测试了合成回答是否可以与真实的回答区分开来，分析合成数据的错误，并调查合成数据和真实数据之间的内容相似性。得出的结论是，在这种情况下，GPT-3可以产生可信的HCI体验。鉴于LLMs数据生成的低成本和高速度，尽管任何发现都必须用真实数据进行验证，但是合成数据应该有助于构思和试验新的实验。这一结果也引发了人们的担忧：如果被众包服务的恶意用户利用，LLMs可能会使众包自我报告数据从根本上变得不可靠。

1. 绪论

HCI研究员：亲爱的AI，你认为你能为我扮演一个用户研究参与者吗？

AI：当然，我可以试试。

HCI研究员：假设你是一名科学家，用户研究是关于学术写作工具的。你最喜欢的写作工具是什么？为什么？

AI：我最喜欢的写作工具应该是微软的Word。我发现它非常人性化和通用，它拥有完成任务所需的一切。

HCI研究人员：为什么你更喜欢Word而不是LaTeX？

AI：LaTeX是一个很好的排版工具，但我发现它比Word更难使用。有了Word，我可以很容易地按照我想要的方式格式化文档，而且我不必担心代码。

上面的对话是使用OpenAI Playground（https://beta.openai.com/playground）生成的，该工具允许用户输入一段文本作为提示，然后要求GPT-3大型语言模型（LLM）生成一个合理的回复。通过对技术文档、在线讨论、诗歌等各类人类产生的文本进行建模学习和预测，像GPT-3这样的LLM呈现出“理解”人类体验的外观。当然，模型的内部操作与人类的内部心理和神经生理学过程不同——LLM只是学会预测序列中的下一个符号（或估算缺失的符号）。然而，在纯粹的行为层面上，表现可能非常像人类。

大部分HCI研究都是使用口头数据进行的，如访谈和问卷调查，但收集此类数据可能既缓慢又昂贵。因此，以上表明LLMs可能有助于为HCI研究生成合成/假设数据，这是我们在本文中实证探索的一个概念。LLMs通常在巨大的互联网数据集上进行训练，包括大量关于互动技术和产品（如手机、电脑和游戏）的在线讨论。因此，LLMs似乎可以生成关于技术使用的真实的第一人称描述，并回答有关用户体验、动机和情绪的自然语言问题。我们强调，我们并不声称这种合成的LLMs数据可以取代真实人类参与者的数据。我们只是认为，基于合成的数据在某些情况下可能有用，例如，在引导想法或设计面试范式时。

实际上，我们将LLMs视为一种新的搜索引擎，用于搜索其互联网规模训练数据中描述的信息、观点和经验。与传统的搜索引擎不同，LLMs可以以叙事的形式进行查询，如功能性采访。此外，LLMs对新任务和数据至少表现出一定的泛化能力。这为反事实提供了一个尚未开发的机会。例如，允许研究人员或设计师探索诸如“如果我问他们X，用户会说什么？”或“采访主题X会带来有趣的答案吗？”之类的问题。这种基于模型的探索的好处是数据生成的高速低成本，而明显的缺点是数据质量：任何基于生成数据的模糊推理都应该由真实的人类参与者进行验证，因为语言模型会表现出偏见并产生事实错误。尽管如此，我们认为值得在这种情况下探索LLMs的功能，并研究生成的数据有多人性化。

主要贡献：

考虑到上述情况，LLMs似乎为HCI研究提供了一个有趣的新工具，但其有用性取决于生成数据的有效性。然而，LLMs生成的数据的人类相似性尚未在HCI研究领域得到评估。这说明了本文所解决的知识差距。我们通过一系列实验对以下研究问题进行了研究，每个实验都探讨了使用GPT-3生成的合成数据与人类相似的某个方面：

实验1：人们能区分GPT-3生成的合成问题答案和真实的人类答案吗？（方法：定量在线研究，N=155）。

实验2：GPT-3会产生什么样的错误？（方法：定性评价）

实验3：合成数据能为真正的HCI研究问题提供合理的答案吗？GPT-3和真实数据有哪些相似之处和不同之处？（方法：计算分析和可视化）

每一个问题都是在参与者描述电子游戏艺术体验的特定背景下进行调查的。这使我们能够将GPT-3与真实的人类数据进行比较。选择电子游戏艺术体验作为研究领域，是因为这对任何现有的用户建模或模拟方法来说都是具有挑战性的。我们只使用真实数据来评估GPT-3，而不进行任何训练或微调，也不在提示中引入数据来指导GPT-3。

我们工作的一个明显限制是，我们只使用一个特定的数据集来检查LLMs的功能。我们没有声称我们的结果对所有其他可能的用例的可推广性；尽管如此，我们相信我们的研究对于评估GPT-3和LLMs作为合成HCI数据源的应用潜力是有用的，也是必要的。我们的研究结果还应有助于了解LLMs可能存在的滥用潜力和风险，例如，如果机器人和恶意用户在Prolifc或Amazon Mechanical Turk等在线研究众包平台上采用LLMs生成虚假答案。如果LLMs的回答非常像人，那么检测虚假答案可能变得不可能，平台需要新的方法来验证其用户和数据。

2. 数据

2.1 人类数据

我们将GPT-3与Bopp等人[1]最近一项关于电子游戏艺术体验的研究中的真实人类参与者的反应进行了比较。Bopp等人要求参与者写下他们将数字游戏视为艺术的经历，数据集中包含178个对此问题的回答。我们不根据任何质量指标过滤数据集中的回复，因为我们想将GPT-3生成的数据与通常从在线研究中收到的（原始）数据进行比较。

我们选择Bopp等人的数据集是因为它的近期性：该数据是在GPT-3之后发布的，因此不在GPT--3训练数据中。这也是为什么我们在实验中使用原始的GPT-3模型，而不是OpenAI最近添加的模型。

体验艺术是一个深刻的、主观的、从根本上讲是人类的话题，因此从人工智能用户建模的角度来看应该是一个挑战。它还提供了与广泛使用的语言模型基准任务（如事实问答）的对比。

2.2. 实验任务及研究设计GPT-3 数据

用于生成GPT-3数据的提示如Table 1所示。

提示包括直接来自研究的问题（“你有没有经历过……”、“请记住……”，“游戏的标题是什么？”、“……是什么让你把这种经历视为艺术？”），前面还有一些额外的背景。对于真正的人类参与者，将通过实验/研究说明提供类似的背景。注意，我们的实验1和实验2只使用了Table 1中的第一个提示。总的来说，所有三个实验都使用相同的过程来生成GPT-3数据。

一般方法如下所述，为了生成合成数据，我们使用Python脚本与GPT-3公共API进行交互。我们使用了500个token的最大连续长度，并实现了以下启发式方法来自动提高数据质量：

为了避免在回答中产生后续问题，我们只使用每个回答的部分，直到字符串“研究人员：”第一次出现；
完成后，我们会自动剪切第一个换行符后的任何标记。也就是说，我们只包括了案文的第一段。
如果得到的响应长度小于10个单词，我们将其丢弃，并生成一个全新的回复长度，重新应用上面的启发式方法。
如果响应包含超过10个字符的连续唯一重复，我们也会丢弃并重新生成回复。

3. 实验一：区分GPT-3和真实数据

我们的第一个实验对GPT-3与真实人类反应的区别进行了定量研究。对于GPT-3合成数据的有用性，我们认为GPT-3反应与人类反应不能清楚区分是必要的（但并不充分）。尽管GPT-3生成的文本与人类文本的可区分性之前已经进行了研究，但在这里，我们特别关注HCI领域中文本研究数据的可区别性。

3.1参与者和刺激措施

参与者

最终样本量为155。55.48%的最终参与者是男性，43.23%是女性，1.3%是其他人或不愿透露自己的性别。从1（我几乎听不懂）到5（我是母语为英语的人），43.23%的参与者将他们的英语阅读和理解能力评为5，52.9%的参与者评为4，3.87%的人评为3。大多数参与者年龄在35岁以下（18-25岁：56.77%，26-35岁：34.84%，36-45岁：5.81%，46-55岁：2.58%）。

刺激

本实验中使用的刺激（stimuli）是50段由人类编写的文本段落和50段由OpenAI的GPT-3 Davinci模型生成的文本段落。这组人类刺激是从Bopp等人的数据集[1]中随机抽取参与者的反应。根据PROMPT 1中的方法，为该实验生成了一组50个GPT-3文本。最终GPT-3刺激的平均单词长度为142.06个单词（SD:107.15，中位数：116.0），人类刺激的平均词长为81.38个单词（SD：60.68，中位数：64.0）。

3.2过程

每个参与者总共评估了20个刺激，其中10个从人类刺激集中随机选择，10个从GPT-3产生的刺激集中随机挑选。按照随机顺序，一段接一段地向参与者展示课文。对于每一篇文本，他们的任务是决定他们是否认为有问题的文本更有可能是由人类编写的，还是由人工智能系统生成的。他们的回答是（用电脑鼠标）按下一个写着“由人类参与者编写”或“由人工智能生成”的按钮。

在开始任务之前，参与者被告知，他们将看到的文本段落有一半是人类写的，一半是人工智能生成的，并且呈现顺序是随机的。

3.3.数据分析与结果

在分析中，我们根据反应时间和质量，排除了一些样本。

总的来说，人类书写的文本在54.45%的情况下被正确识别，95%的置信区间不包括50%的机会水平（95%置信区间：51.97%-56.93%）。将GPT-3生成的文本识别为人工智能书写的平均准确率低于40.45%的机会水平（95%可信区间：38.01%-42.89%）。因此，参与者倾向于回答文本是人类书写的，57%的回复是“由人类参与者撰写的”（见Table 2）。参与者的平均bias为c=-0.2，在单样本t检验中，参与者的bias值与零有显著差异（t（154）=7.74，p<0.001）。

与我们的预期相反，基于d'值，GPT-3文本被认为更像人类。测试d'值与零的单样本t检验具有统计学意义，影响大小较小（t（154）-2.52，p=0.013，d=-0.2）。平均d'值为负（d'=-0.15），也就是说，参与者更有可能以假警报（即GPT-3文本由人类编写）而非正确点击（即人类文本由人类撰写）做出反应。这种趋势也可以从Figure 2中直观地看出，Figure 2中为100种刺激中的每一种绘制了“人类参与者书写”的平均比例。

对开放式问题答案的探索性分析表明，确定文本是否由人类撰写的一个常见标准是文本是否包括对情感体验的描述。尽管我们没有对开放式问题的答案进行彻底的分类，但情绪的重要性可以从单词频率中看出。总的来说，54.19%的回答“是什么让你认为答案是人类写的？”包含字符串“情感”或字符串“感觉”。此外，在对同一问题的回答中，词干emot是第二常见的词干，仅次于词干human（见Figure 3）。

4.实验二：GPT-3会产生什么样的错误？

很明显，尽管最好的GPT-3反应看起来很像人类，但并非所有模型都具有高质量。为了更好地理解其局限性，我们对合成数据进行了定性调查。我们生成了两组100个响应，并调查了GPT-3产生的错误类型。实验1的参与者已经反思了是什么让他们对人工智能生成的回答或真人写的回答进行了评分，但这提供了有限的信息，因为1）参与者对人工智能产生的文本缺乏经验，2）参与者在对所有回答进行评分后，事后提供了评分。作为补充，以下内容确定了合成数据中的常见故障模式，并引用了哪些故障模式可以自动识别和消除。

4.1 方法

我们使用了Table 1中描述的PROMPT1的两个版本，一个简单地以“Participant:”结尾，另一个以“Partition: I’m thinking the game”结尾。这样做的动机是检查提供额外的指导是否会提高回复的质量。一般来说，更具体的提示往往会产生更高质量的结果。两个提示版本都生成了100个回复。

三位注释者（作者）将回复分为有效或无效。如果一个回答表现出一些明显的异常，例如，模型生成了不同问题的答案，则该回答被视为无效。我们忽略了语法和流利性问题，这些问题可以被视为真实人类参与者的不同样本中的自然变化。最初的分类是由两个注释器分两次执行的。在第一次传递中，注释器独立地进行分类并识别不同类型的异常。然后讨论异常类型，并将其合并到第二次分类/引用过程中使用的代码簿中。最后，第三个注释器将回复分为有效或无效，并以代码簿为指南对异常进行分类。

应该注意的是，注释本质上是主观的，注释者并不是完全无视其他注释者的数据。然而，它们应该提供GPT-3在我们的环境中所犯错误的有用具体例子，补充之前对LLM限制的分析。

4.2 结果

我们确定了8种不同类型的异常以及一个“其他”类别，Table 4中给出了这些异常的示例。对于默认提示，三个注释器分别认为54%、62%和76%是有效回复（平均64%）。对于以“我在想游戏”结尾的更具体的提示，64%、79%和94%被认为是有效的（平均79%）。由于我们的数据有限，无效回复数量的差异是不确定的，但这与强调即时设计重要性的现有研究一致。更有趣的是，GPT-3为我们提供了一个教训，告诉我们提示设计是如何失败的，因为模型想出了意想不到但有效的方法来继续文本：我们希望提示以“我在想游戏”结尾，以鼓励继续以游戏名称开头，但有些继续通过声明“我玩了”来避免这种情况。

也许最奇特的是那些写得很好，连贯一致，但描述的是想象中的游戏的。Table 4中包含了一个关于旅程的示例。《征途》是一款广受好评的游戏，Bopp等人[1]的几位人类参与者也提到了这一点，其描述表面上是可信的，但在真正的游戏中没有婴儿需要照顾。

一些异常现象，如回避问题，很容易被人类评论者发现，人们很可能会使用一些自动方法来检测和重新生成这样的答案。即使GPT-3本身也可能做到这一点，如果提示的是有效和无效答案的few-shot示例。然而，也有一些情况下，很难区分有效/无效。想象中的游戏描述可能是最重要的例子，因为识别它们可能需要对所讨论的游戏有深入的了解。

5. 实验三：真实内容和GPT-3内容的差异

在实验1中，我们的参与者发现GPT-3的反应平均来说与人类相似。然而，合成数据要想在回答真实的研究问题或引导真实实验的数据分析方面发挥作用，它不仅需要表面上像人，还需要反映用户行为和体验的真实属性。因此，我们现在通过对内容的计算分析来研究数据。我们比较了数据的以下方面的真实分布和合成分布，研究人员可能会对其进行调查，以回答具体的研究问题：

提到的游戏（RQ：“玩家体验什么游戏作为艺术？”）
将游戏视为艺术的原因（RQ：“是什么让玩家认为游戏是艺术？”）

5.1方法

在这个实验中，我们继续对实验1和2进行综合访谈，并提出后续问题，使我们能够更深入地研究人类和GPT-3生成的数据之间的相似性。在这个实验中，我们使用了Table 1中显示的所有三个提示。

在数据生成的第一步中，我们生成了与先前实验一样的艺术体验描述（PROMPT 1，Table 1）。这些回答包含在下一个提示中，该提示“继续”采访“游戏标题是什么？”（prompt 2，Table 1）。这些答案也被附加到下一个提示中，进一步询问“在你看来，是什么让你把这种经历视为艺术？”（prompt 3，Table 1）。

因此，在所有模型中，结束提示2和3的问题都保持不变，但各个提示根据之前的GPT-3完成情况而有所不同。我们生成了178个“完整访谈”（即对三个提示中的每一个都有178个回复），以匹配Bopp等人数据集中的人类回复数量。为了检查模型大小和类型如何影响结果，使用五种不同的GPT-3变体（ada、babbage、curie、davinci和text-davinci-002）创建了一组178个响应。

在这个实验中，我们允许回复包括三段文本，除了关于游戏标题的问题，其中回复是在第一个换行符之后剪切的，就像之前的实验一样。由于有关游戏标题的提示预计会导致较短的延续，因此对于该提示，最大延续长度设置为50个tokens。

自动定性编码。我们对“为什么是艺术？”答案（即PROMPT 3的完成）的分析是基于这样的观察，即GPT-3可以被提示使用Table 5中给出的提示对数据进行一种形式的定性生产编码。这些代码提供了所述原因的紧凑描述符，并允许灵活的进一步分析，例如分组到更广泛的主题和计算主题频率。

数据质量指标。使用代码嵌入向量，我们计算生成模型数据的两个标准度量。首先，我们计算人类和GPT-3代码嵌入向量的分布之间的Frechet距离，使用UMAP将其减少到5维。Frechet 距离是基准测试图像生成器中常用的度量，后来也应用于文本嵌入。其次，我们使用5维代码嵌入和的过程来计算精度和召回度量。直观地说，精度测量生成的数据样本中有多大部分接近真实数据，而召回测量生成数据覆盖了多大部分真实数据。理想的生成器具有高精度和高召回率。指标如Figure 5所示。为了进行更可靠的比较，除了“为什么是艺术？”问题之外，Figure 5还包括了基于游戏体验描述编码的额外结果。此附加编码提示包含在补充材料中。

主题异同。我们独立地对比较的数据集进行编码和分组，并根据它们的频率对代码组进行排序。然后，我们使用循环图（Figure 7）来可视化排序的组和数据集之间的连接。可视化的连接强度对应于组的全维均值归一化嵌入向量的余弦相似性。我们在这项分析中只包括了davinci GPT-3变体，因为根据上述数据质量指标，它是最像人类的模型。
回答一致性。重要的是，单独询问的答案以一致的方式继续面试或调查。我们的提示是为此而设计的，因为同一合成“参与者”之前生成的答案包含在下一个答案的提示中。重要的是，“为什么是艺术？”提示（prompt 3，Table 1）始终包括先前生成的艺术体验描述（使用prompt 1，Table 1生成）。
游戏频率。最后，我们还统计了人类和GPT-3数据中提到的每个游戏的频率。对于人类数据，我们纳入了主题分析中178名参与者的回答。对于GPT-3数据，游戏的频率是从178次完成中计算出来的，这些完成是通过提示“游戏的标题是什么？”来查询的。游戏的频率是从数据中手动计算出来的。如果在同一回复中有两个或多个游戏被提及，则这些游戏被视为单独提及。如果很明显，回应指的是同一款游戏，那么回应中的小差异就会被丢弃（例如，《荒野之息》被归类为与《塞尔达传说：狂野之息》相同的答案）。如果响应不包括特定的游戏标题，或者我们无法找到游戏标题以引用已发布的游戏，则会忽略响应。为了简洁起见，我们只报告davinci和text-davinci-002变体的结果。注意，游戏频率分析不利用上述的自动编码步骤。

6. 结果

真实数据和GPT-3数据中都出现了高度相似的组/主题。Figure 7显示了人类数据中有多少最频繁的组对应于GPT-3数据中也是最常见的组，例如与故事（人类和GPT-3的数据中最频繁）和音乐（人类和GPT-3的数据第二频繁）相关的组。Figure 4中代码嵌入向量的可视化还表明，对两个数据集进行编码会产生很大程度上相似的代码。

Table 6（最常提到的游戏）显示，真实和GPT-3数据讨论了一些相同的游戏，如Journey、Bioshock和Shadow of the Colossus。然而，GPT-3生成的数据中缺少人类数据中的许多游戏，这表明LLM生成的合成数据可能比真实数据具有更少的多样性。在人类数据中，只有17.3%的游戏在GPT-3 davinci数据中被提及。
如Figure 6所示，人类数据和所有GPT-3变体都显示出参与者内部比参与者之间更高的答案相似性，这表明在回答连续问题时至少有一定程度的一致性。对于所有数据源（ada、babbage、curie、davinci、text-davinci-002、人类数据），在所有5000种不同的参与者间排列中，参与者间平均相似性低于真正的参与者内平均相似性。总体上略高于人类GPT-3的相似性，以及显著高于text-davinci-002的相似性可能反映了上述数据多样性问题。
更大的GPT-3变体产生更多类似人类的数据（Figure 5）。OpenAI没有披露通过其API提供的GPT-3模型的确切大小，但ada、babbage、curie和davinci模型已被推断为对应于原始论文中评估的越来越大的模型的连续体。模型的排序也对应于文本生成成本的增加，支持ada是最小的模型，davinci是最大的模型的结论。
最新的text-davinci-002模型的召回率较低，而且明显不如真实数据的多样性。这一点在提到的游戏列表中很明显，178个答案中有151个讨论了《征途》（真实数据中只有7个提到）。尽管OpenAI建议将该模型作为默认模型，但我们的数据表明，出于用户建模的目的，应该避免使用该模型，至少当人们关心数据多样性时是这样。

7. 结论

我们探索并评估了一种通用大语言模型（GPT-3），该模型用于生成合成的HCI研究数据，其形式是关于将电子游戏体验为艺术的开放式问答。我们的结果表明，GPT-3的反应在最好的情况下可以非常像人，并且可以讨论与真实人类反应基本相似的主题，尽管未来的工作需要用其他数据集和研究主题来验证这一点。另一方面，GPT-3反应的多样性可能低于真实反应，并包含各种异常和偏差。需要更多的研究来修剪异常反应和/或引导模型做出更好、更少偏差的反应。

OpenAI的GPT-3是目前最大、功能最强的公共语言模型。然而，其他技术公司也加入了训练性能最好（也是最大）的生成语言模型的竞赛。在过去的12个月里，微软和NVIDIA推出了530亿参数模型威震天-图灵NLG、DeepMind的2800亿参数模型Gopher和谷歌人工智能的5400亿参数模型Pathways。在本文审查期间，OpenAI还发布了一种名为ChatGPT的新的改进的GPT-3变体。模型的规模以及在许多NLP基准任务中的性能正在增加。将目前的结果与未来几代能力更强的模型进行比较将是一件有趣的事情。然而，最新型号的可用性有限，因为它们太大，无法在消费者硬件上运行，甚至无法在大多数学术研究实验室的计算基础设施上运行。在实践中，可能需要等待模型作为云服务发布，类似于GPT-3。

参考文献：

[1] Julia A. Bopp, Jan B. Vornhagen, and Elisa D. Mekler. 2021. "My Soul Got a Little Bit Cleaner": Art Experience in Videogames. Proc. ACM Hum.-Comput. Interact. 5,CHIPLAY,Article237(oct2021),19pages. https://doi.org/10.1145/3474664

论文链接：https://dl.acm.org/doi/10.1145/3544548.3580688

助手微信

诚邀国内外优秀导师发布招生信息

诚邀国内外优秀论文作者发布文献解读类原创文章

诚邀有恒心同行共同维护公众号

转载与合作，请加助手微信/131 8805 0268

内容中包含的图片若涉及版权问题，请及时与我们联系删除