- 简介我们发现,语言模型预测文本的能力与其嵌入空间的广度密切相关:那些将其上下文表示分布得更广的模型往往能够实现更低的困惑度。具体而言,我们发现表示的离散程度——即隐藏向量之间的平均成对余弦距离——在不同模型家族(如LLaMA、Qwen等)和不同领域(如维基百科、新闻、科学摘要)中与困惑度呈显著的负相关关系。除了揭示这种关联之外,我们还展示了如何利用这种离散程度来完成一系列实际任务,而无需依赖标注数据。首先,在未标注文本上测量离散程度,可以预测模型在新领域下游任务中的准确率,从而为模型选择提供一种数据效率高的工具。其次,我们发现识别出离散程度更高的网络层,就能快速锁定适用于基于检索的方法(如kNN-LM)的最佳表示,从而避免逐层穷举搜索。最后,我们在训练过程中引入了一个简单的“推离”目标函数,该方法无论是在单一领域还是跨领域场景下都能提升离散程度,并直接改善每个场景下的困惑度表现。
-
- 图表
- 解决问题论文试图验证一个假设:语言模型预测文本的能力与其嵌入空间的广度密切相关。具体来说,模型在上下文表示中分布得越广泛,其困惑度(perplexity)越低。这是一个相对较新的研究方向,旨在通过无监督方式理解并优化语言模型的表示能力。
- 关键思路提出“表示分散度”(representation dispersion)作为衡量语言模型表示广度的指标,即隐藏向量之间的平均成对余弦距离。该指标与模型的困惑度呈强负相关。论文进一步展示了如何利用这一指标进行模型选择、表示层筛选和训练优化。
- 其它亮点1. 通过大量实验验证了不同模型家族(如LLaMA、Qwen)和多个领域(如维基百科、新闻、科学摘要)中表示分散度与困惑度之间的稳定负相关关系。 2. 展示了如何在无标签数据的情况下使用分散度来预测新领域的下游任务准确率,为模型选择提供有效工具。 3. 发现高分散度的网络层更适合作为检索方法(如kNN-LM)的表示来源,避免逐层搜索的成本。 4. 引入了一个简单的“推开”训练目标,提升表示分散度,并显著改善单领域和跨领域的困惑度。 5. 实验设计全面,涵盖了多个模型和数据集,但未提及是否开源代码。
- 1. 「Language Models as Knowledge Bases?」by Petroni et al., 2019 2. 「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」by Devlin et al., 2018 3. 「Improving Language Models by Retrieval-Augmentation」by Borgeaud et al., 2021 4. 「What Do Neural Networks Learn When Training on Contextual Identity Tasks?」by Zhang et al., 2022 5. 「Disentangled Representations in Language Models」by DiCarlo et al., 2021
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流