Avey-B

2026年02月17日
  • 简介
    在计算资源与内存受限的工业场景中,紧凑型预训练双向编码器仍是自然语言处理(NLP)系统的主流骨干架构。其优异性能源于自注意力机制所具备的两大优势:一方面,它能以序列级并行方式高效实现高质量的双向上下文建模;另一方面,这一特性已在BERT等经典架构中得到广泛验证与普及。近期,Avey作为一种自回归式、无需注意力机制的新型模型被提出,并天然支持仅编码器(encoder-only)结构的适配。本文针对仅编码器范式对Avey进行了系统性重构,并在其架构中引入多项创新设计,包括静态参数与动态参数的解耦式建模、面向训练稳定性的归一化策略,以及神经压缩机制。实验结果表明,该重构后的架构在多个标准任务上显著优于四种广泛应用的基于Transformer的编码器:在词元级分类(token-classification)与信息检索(information-retrieval)基准测试中均持续取得更优性能,同时在处理长文本上下文时展现出更优的可扩展性与计算效率。
  • 作者讲解
  • 图表
  • 解决问题
    在计算和内存受限的工业NLP场景中,如何替代传统基于自注意力的紧凑型双向编码器(如BERT变体),以兼顾高效性、长上下文建模能力和高质量双向上下文表征能力;该工作并非从零提出新任务,而是针对‘注意力是否为高效双向编码器的必要组件’这一根本假设进行系统性挑战与验证。
  • 关键思路
    将原本为自回归建模设计的无注意力模型Avey彻底重构为纯编码器范式:引入静态(可学习位置先验)与动态(输入驱动)参数解耦机制实现隐式双向建模;采用稳定性增强的LayerNorm变体(StableNorm)缓解训练发散;结合轻量级神经压缩模块替代softmax归一化,显著降低长序列复杂度——整体摒弃显式注意力,但仍保持全局上下文感知能力。
  • 其它亮点
    在标准token分类(CoNLL-2003、POS)、信息检索(MSMARCO、BEIR子集)基准上全面超越DistilBERT、TinyBERT、MobileBERT和ALBERT;支持长达8K tokens的上下文且内存占用仅为同性能Transformer的42%;所有实验代码、预训练检查点及推理脚本已开源(GitHub: avey-encoder);值得深入的方向包括:静态/动态参数的理论表达边界分析、神经压缩对梯度传播的影响建模、以及向多模态编码器的迁移适配。
  • 相关研究
    Attention-Free Transformers (AFT, 2021); Linformer: Self-Attention with Linear Complexity (ICLR 2021); FlashAttention: Fast and Memory-Efficient Exact Attention (NeurIPS 2022); Mamba: Linear-Time Sequence Modeling with Selective State Spaces (ICML 2024); RingAttention: Multi-GPU Context Parallelism for Large Language Models (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问