斯坦福&伯克利｜ChatGPT的行为是如何随着时间的变化而变化的？

How is ChatGPT's behavior changing over time?

GPT-3.5和GPT-4是使用最广泛的两种大型语言模型（LLM）服务。然而，随着时间的推移，这些模型的更新时间和方式是不透明的。

Lingjiao Chen, Matei Zaharia，James Zou

Stanford University，UC Berkeley

在这里，我们评估了2023年3月和2023年6月版本的GPT-3.5和GPT-4的四个不同任务：

1）解决数学问题

2）回答敏感/危险问题

3）生成代码

4）视觉推理。

我们发现，随着时间的推移，GPT-3.5和GPT-4的性能和行为都会有很大差异。

例如，GPT-4（2023年3月）非常擅长识别素数（准确率为97.6%），但GPT-4（2023年6月）在这些相同问题上非常差（准确度2.4%）。

有趣的是，在这项任务中，GPT-3.5（2023年6月）比GPT-3.5（2023年3月）好得多。与3月份相比，GPT-4在6月份不太愿意回答敏感问题，6月份的代码生成中GPT-4和GPT-3.5在代码生成中的格式错误都比3月份多。总体而言，我们的发现表明，同一大模型服务的行为可以在相对较短的时间内发生重大变化，这凸显了持续监控大模型质量的必要性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

斯坦福&伯克利｜ChatGPT的行为是如何随着时间的变化而变化的？

评论列表

评论