Exponentially Faster Language Modelling

2023年11月15日
  • 简介
    语言模型在进行单个推理时,实际上只需要使用指数级别的神经元。为了证明这一点,我们介绍了一种名为FastBERT的BERT变体,它在推理过程中只使用了0.3\%的神经元,同时表现与类似的BERT模型相当。FastBERT只选择了每个层推理中的4095个神经元中的12个来进行推理。这是通过将前馈网络替换为快速前馈网络(FFFs)实现的。虽然目前还没有真正高效的实现来释放条件神经执行的全部加速潜力,但我们提供了高级CPU代码,相对于优化后的基准前馈实现,可以实现78倍的加速,并且提供了一个PyTorch实现,相对于等效的批处理前馈推理,可以实现40倍的加速。我们公开了我们的训练代码、基准测试设置和模型权重。
  • 图表
  • 解决问题
    FastBERT试图解决的问题是如何在保证模型性能的情况下,减少模型推理时所需的计算资源。
  • 关键思路
    FastBERT的解决方案是使用快速前馈网络(FFF)来代替传统的前馈网络,从而在推理过程中只使用0.3%的神经元,以实现高效的推理。
  • 其它亮点
    论文提供了高层次的CPU代码和PyTorch实现,以实现高速前馈网络的全面加速。此外,该论文还公开了其训练代码、基准测试设置和模型权重。
  • 相关研究
    最近,一些相关的研究包括EfficientNet,MobileNet和ShuffleNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论