- 简介大型语言模型(LLMs)已经引发了自然语言处理的范式转变,但它们的可控性有限,这对下游应用程序构成了重大挑战。我们旨在通过从人脑神经机制中汲取灵感来解决这个问题,具体来说,是从语言生成和理解的关键区域布罗卡区和沃尼克区中汲取灵感。特别是,布罗卡区接收来自沃尼克区的认知决策信号,将语言生成视为一个复杂的决策过程,这与现有LLMs的完全自回归语言生成不同。在类似的思路下,我们提出的系统——BWArea模型,将语言生成概念化为一个决策任务。该模型由三个组件组成:一个语言世界模型、一个反向动力学模型和一个认知策略。与沃尼克区类似,反向动力学模型旨在推断每个标记背后的潜在认知意图或潜在行动。BWArea模型可以像现有的LLMs一样进行预训练和微调。通过30B个干净的预训练标记,我们训练了一个BWArea模型,其性能与相同大小(1B参数)的LLMs相当。与完全自回归的LLMs不同,如果意外出现脏数据,它的预训练性能不会退化。这显示了BWArea模型分解结构在减少劳动密集型数据选择和标记方面的优势。最后,我们揭示了BWArea模型通过微调下游奖励度量的认知策略提供了增强的可控性,从而促进了与更大简单性的对齐。在两个套件TextWorld和BigBench Hard的10个任务中,我们的方法在9个任务上表现优于自回归LLMs。
-
- 图表
- 解决问题本论文旨在通过借鉴人脑神经机制的思想,提出一种基于决策的语言生成模型,以解决当前大型语言模型在下游应用中受到的可控性限制问题。
- 关键思路BWArea模型将语言生成视为一个决策任务,并由语言世界模型、逆动力学模型和认知策略三部分构成。其中逆动力学模型类似于人脑的Wernicke区,可以推断每个标记背后的潜在认知意图,从而减少对数据选择和标注的劳动力需求。而认知策略可以通过下游奖励指标进行微调,从而提高模型的可控性。
- 其它亮点论文提出的BWArea模型在30B干净预训练数据的情况下,与同规模的大型语言模型相比表现出色,并且不会因为出现脏数据而退化。在两个数据集上的实验结果显示,BWArea模型在9个任务中优于自回归的大型语言模型。此外,论文还提供了开源代码。
- 最近的相关研究包括GPT-3、Turing-NLG和CTRL等大型语言模型,以及一些基于强化学习的语言生成模型,如PG-Seq和LMP。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流