Accelerating Transformers with Spectrum-Preserving Token Merging

2024年05月25日
  • 简介
    本文介绍了一种名为PiToMe的新型算法,旨在增加Transformer架构的吞吐量,该架构是用于视觉和语言任务的许多最先进模型的基础组件(例如GPT,LLaVa)。该算法优先保留信息丰富的标记,使用额外的能量得分指标来识别相似标记的大簇作为高能量,并将较小的(独特且孤立的)簇视为低能量并予以保留。实验结果表明,PiToMe在保持精度的同时,可以节省基础模型40-60%的FLOPs,并在图像分类、图像文本检索和视觉问答等任务中表现出优异的性能。此外,理论上证明了PiToMe在温和条件下可以保留原始标记空间的内在谱特性。与先前基于Bipartite Soft Matching(BSM)的算法相比,PiToMe具有更好的性能和更少的缺点,如对标记分割策略的敏感性和对后续层中信息丰富的标记的破坏。
  • 图表
  • 解决问题
    论文旨在提高Transformer架构的吞吐量,通过合并令牌表示来减少计算和内存需求,同时保持准确性。同时解决了Bipartite Soft Matching(BSM)方法中的一些缺陷,如对令牌分割策略的敏感性和对后续层中的信息令牌的破坏。
  • 关键思路
    PiToMe是一种新的范例,通过使用额外的能量分数来优先保留信息令牌,将类似的令牌聚类为高能量,而较小的(唯一和孤立的)聚类被视为低能量并被保留。
  • 其它亮点
    PiToMe在图像分类、图像文本检索和视觉问答等任务上表现出优异的性能,同时在基准模型的基础上节省了40-60%的FLOPs。此外,论文还从理论上证明,PiToMe在温和条件下能够保留原始令牌空间的内在谱特性。
  • 相关研究
    最近的相关研究包括使用Bipartite Soft Matching(BSM)的算法以及其他合并令牌表示的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论