How is ChatGPT's behavior changing over time?
GPT-3.5和GPT-4是使用最广泛的两种大型语言模型(LLM)服务。然而,随着时间的推移,这些模型的更新时间和方式是不透明的。
Lingjiao Chen, Matei Zaharia,James Zou
Stanford University,UC Berkeley

在这里,我们评估了2023年3月和2023年6月版本的GPT-3.5和GPT-4的四个不同任务:
1)解决数学问题
2)回答敏感/危险问题
3)生成代码
4)视觉推理。
我们发现,随着时间的推移,GPT-3.5和GPT-4的性能和行为都会有很大差异。
例如,GPT-4(2023年3月)非常擅长识别素数(准确率为97.6%),但GPT-4(2023年6月)在这些相同问题上非常差(准确度2.4%)。

有趣的是,在这项任务中,GPT-3.5(2023年6月)比GPT-3.5(2023年3月)好得多。与3月份相比,GPT-4在6月份不太愿意回答敏感问题,6月份的代码生成中GPT-4和GPT-3.5在代码生成中的格式错误都比3月份多。总体而言,我们的发现表明,同一大模型服务的行为可以在相对较短的时间内发生重大变化,这凸显了持续监控大模型质量的必要性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢