- 简介随着更大、更新的大型语言模型在战略心理理论(ToM)任务中的表现不断提高,对这些最先进模型的需求也相应增加。然而,它们的部署在处理能力和时间方面都是昂贵的。在本文中,我们通过微调研究创建更小、适用于模拟的代理的可行性。为此,我们提出了一个具有20个独特场景的大型预训练模型,将社会背景与社会困境相结合,记录其答案,并将其用于同一系列较小模型的问答微调。我们的重点是在上下文中的博弈论决策,这是人类互动发生的领域,需要理解社会动态和心理理论(或类似理论)。我们发现,微调后的较小语言模型表现出与其较大相关模型相近的显着性能,并且它们的改进扩展到了超出训练示例提供的领域和上下文。平均而言,通过微调,较小模型在所有游戏中都显示出了与较大模型行为相符的46%的改进,其中100%表示完全匹配。这表明我们的流程代表了一种将某种心理理论传达给较小模型的有效方法,从而在过程中创建了改进和廉价部署的算法。尽管它们的简单性和相关缺点和限制,我们的发现代表了追求和训练专门用于战略和社会决策制定的模型的一个基础。
-
- 图表
- 解决问题本论文旨在通过fine-tuning创建更小的、可用于模拟的代理,以解决大型语言模型部署成本高的问题。同时,研究重点在于上下文博弈理论决策的情境下,探索语言模型fine-tuning的有效性。
- 关键思路论文提出了一种通过fine-tuning大型预训练模型在具有社会背景和社会困境的20个场景下的Q&A表现,来训练同系列较小模型的方法。实验结果表明,fine-tuning可以显著提高小模型的性能。
- 其它亮点论文的实验通过fine-tuning方法,提高了小型模型的表现,同时在训练场景之外的情境下也有了显著提升。该方法可以为小型模型传递一定的心理理论,从而创建更好的算法。值得注意的是,该方法虽然简单,但仍有其局限性和缺陷。论文还使用了20个场景的数据集,并开源了代码。
- 最近的相关研究包括使用大型语言模型解决ToM任务的研究,以及使用fine-tuning方法提高模型性能的研究。


提问交流