Let's Think Dot by Dot: Hidden Computation in Transformer Language Models

2024年04月24日
  • 简介
    语言模型的思维链式回复可以提高大多数基准测试的性能。然而,目前尚不清楚这些性能提升在多大程度上归因于类似于人类的任务分解,还是仅仅是额外标记所允许的更大计算量。我们展示了transformers可以使用无意义的填充标记(例如,“......”)代替思维链来解决两个难以在没有中间标记响应时解决的算法任务。但是,我们发现学习使用填充标记是困难的,并且需要特定的密集监督才能收敛。我们还提供了一个理论特征化问题类别,其中填充标记在一阶公式的量词深度方面是有用的。对于满足这一特征化的问题,思维链标记不需要提供有关多标记计算中涉及的中间计算步骤的信息。总之,我们的结果表明,额外的标记可以提供独立于标记选择的计算优势。中间标记可以充当填充标记的事实引起了人们对于大型语言模型进行不可审计、隐藏计算的担忧,这些计算与观察到的思维链标记越来越脱节。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文探讨了使用无意义填充符号作为中间令牌来解决算法任务的可行性,并分析了其在深度学习模型中的应用
  • 关键思路
    论文提出使用无意义填充符号作为中间令牌来解决算法任务,这种方法可以提高深度学习模型的性能,但是需要特定的密集监督才能实现
  • 其它亮点
    实验表明,使用无意义填充符号可以提高深度学习模型的性能,但是需要特定的密集监督才能实现;论文提供了一种理论特征化方法,用于确定在哪些问题中使用填充符号是有用的;论文引发了对于大型语言模型进行难以审计的隐藏计算的担忧
  • 相关研究
    最近的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问