- 简介推理系统的一个关键特性是能够对其输入数据做出明确的决策。对于当代的AI系统,具有明确行为的关键载体是softmax函数,它具有执行可微分的查询-键查找的能力。人们普遍认为,利用softmax的网络的预测能力来自于“电路”,这些电路能够在许多不同的输入上始终锐利地执行某些计算。然而,为了使这些电路具有鲁棒性,它们需要对任意有效的输入进行良好的泛化。在本文中,我们驳斥了这个神话:即使是像查找最大键这样简单的任务,在测试时,任何学习到的电路都必须随着项目数量的增加而分散。我们将这归因于softmax函数在鲁棒地逼近锐利函数方面的根本限制,理论上证明了这种现象,并提出自适应温度作为一种临时技术,以改善推理时softmax的锐度。
- 图表
- 解决问题本论文试图解决softmax函数在处理输入数据时的困境,即对于简单的任务如寻找最大键值,任何学习到的电路在测试时都必须随着项目数量的增加而分散的问题。
- 关键思路论文提出了自适应温度作为一种临时技术,以提高softmax在推理时的锐度,并证明了这种现象的理论基础,即softmax函数无法稳健地逼近锐函数。
- 其它亮点论文的实验设计了不同数量的项目来测试学习到的电路的性能,并使用了多个数据集。此外,论文还提出了一种自适应温度来解决softmax函数的锐度问题。该论文的新颖之处在于,它挑战了关于softmax函数的一个普遍认知,并提供了一种新的解决方案。
- 最近的相关研究包括《On the Expressive Power of Deep Learning: A Tensor Analysis》、《Understanding deep learning requires rethinking generalization》等。
沙发等你来抢
去评论
评论
沙发等你来抢