- 简介稀疏自编码器提供了一种有前途的无监督方法,通过从稀疏瓶颈层中重建激活来从语言模型中提取可解释的特征。由于语言模型学习了许多概念,自编码器需要非常大才能恢复所有相关特征。然而,由于需要平衡重建和稀疏性目标以及存在死亡潜在因素,研究自编码器的缩放属性是困难的。我们提出使用k-稀疏自编码器[Makhzani和Frey,2013]来直接控制稀疏性,简化调整并改善重建-稀疏性前沿。此外,我们发现修改后即使在我们尝试的最大规模下也会产生很少的死亡潜在因素。使用这些技术,我们发现自编码器大小和稀疏性与自编码器规模和稀疏性之间存在清晰的缩放规律。我们还引入了几个新的评估特征质量的指标,基于假设特征的恢复,激活模式的可解释性以及下游效果的稀疏性。这些指标通常随着自编码器大小的增加而改善。为了展示我们方法的可扩展性,我们使用GPT-4激活在40亿个标记上对1600万个潜在自编码器进行了训练。我们发布了开源模型的训练代码和自编码器,以及可视化工具。
- 图表
- 解决问题论文旨在解决从语言模型中提取可解释特征的问题,通过使用稀疏自编码器从一个稀疏瓶颈层中重构激活值,探讨自编码器规模和稀疏度之间的关系。
- 关键思路使用k-稀疏自编码器直接控制稀疏度,简化调整并改善重构-稀疏度的平衡;使用一些修改技巧减少死亡潜在因素的存在;提出了几个新的评估特征质量的指标,这些指标通常随着自编码器规模的增大而改善。
- 其它亮点论文设计了实验并使用了GPT-4激活值数据集,展示了自编码器规模和稀疏度之间的清晰的规模律,并提供了开源代码和自编码器模型。
- 最近的相关研究包括使用自编码器进行特征提取的工作,如《Unsupervised Feature Learning via Non-Parametric Instance-Level Discrimination》和《Deep Clustering for Unsupervised Learning of Visual Features》。
沙发等你来抢
去评论
评论
沙发等你来抢