随着更大、更新的大型语言模型在战略心理理论(ToM)任务中的表现不断提高,对这些最先进模型的需求也相应增加。然而,它们的部署在处理能力和时间方面都很昂贵。在本文中,我们研究了通过微调创建更小、性能更高的专用算法的可行性。为此,我们首先提出了一个具有20个独特情境的大型预训练模型,将不同的社交背景与不同的社交困境游戏相结合,记录其答案,并在同一系列的较小模型上使用这些答案进行问答微调。我们的重点是情境下的博弈理论决策,这是人类互动发生的领域,需要理解心理理论(或类似理论)和社交动态。因此,较小的模型不仅要根据提供的答案进行训练,还要根据较大模型提供的动机进行训练,这应该包含指导和指南,以应对战略困境和社交提示。我们发现,微调后的较小语言模型始终弥合了较小预训练版本和其较大版本之间的性能差距,并且它的改进扩展到了超出训练示例提供的领域和情境,包括包含完全不同的游戏结构的样本外情境。对于所有游戏的平均值,通过微调,较小的模型在与较大模型的行为一致性方面表现出了46%的改进,其中100%代表无法区分的行为。当面对样本外的社交背景和游戏时,微调模型仍然显示出显著的一致性水平,分别达到18%和28%的改进。
提问交流