- 简介大型语言模型(LLMs)结合各种推理强化方法,在数学、法律、编码、常识和世界知识等领域展示了与人类相当的出色能力。本文深入研究LLMs在复杂人类系统中的推理能力。我们提出了一种新的推理框架,称为“马赛克专家观察墙”(MEOW),利用生成代理模拟技术。在MEOW框架中,利用模拟数据来训练专家模型,集中“经验”于每个独立的模拟时间中的特定任务。正是通过模拟积累的“经验”使得专家在复杂人类系统中具备某项任务的能力。我们在一个模拟现实世界安全场景的通信游戏中进行实验。结果表明,我们提出的方法可以与现有的方法相结合,增强LLMs在复杂人类系统中的推理能力。
-
- 图表
- 解决问题本文旨在探讨LLMs在复杂人类系统中的推理能力,并提出了一种新的推理框架MEOW,以利用生成式代理模拟技术来训练专家模型。
- 关键思路MEOW框架通过利用模拟数据来训练专家模型,使其在复杂人类系统的特定任务上具有积累的经验,从而提高LLMs的推理能力。
- 其它亮点本文的实验是在模拟真实世界的安全场景下进行的。实验结果表明,MEOW框架可以与现有的方法相结合,提高LLMs在复杂人类系统中的推理能力。
- 最近的相关研究包括:1.《Large-scale Language Model-based Reasoning for Question Answering》;2.《Improving the Reasoning of Large Language Models by Incorporating External Knowledge》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流