Avey-B - 智源社区论文

向作者提问

NEW

简介

在计算资源与内存受限的工业场景中，紧凑型预训练双向编码器仍是自然语言处理（NLP）系统的主流骨干架构。其优异性能源于自注意力机制所具备的两大优势：一方面，它能以序列级并行方式高效实现高质量的双向上下文建模；另一方面，这一特性已在BERT等经典架构中得到广泛验证与普及。近期，Avey作为一种自回归式、无需注意力机制的新型模型被提出，并天然支持仅编码器（encoder-only）结构的适配。本文针对仅编码器范式对Avey进行了系统性重构，并在其架构中引入多项创新设计，包括静态参数与动态参数的解耦式建模、面向训练稳定性的归一化策略，以及神经压缩机制。实验结果表明，该重构后的架构在多个标准任务上显著优于四种广泛应用的基于Transformer的编码器：在词元级分类（token-classification）与信息检索（information-retrieval）基准测试中均持续取得更优性能，同时在处理长文本上下文时展现出更优的可扩展性与计算效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在计算和内存受限的工业NLP场景中，如何替代传统基于自注意力的紧凑型双向编码器（如BERT变体），以兼顾高效性、长上下文建模能力和高质量双向上下文表征能力；该工作并非从零提出新任务，而是针对‘注意力是否为高效双向编码器的必要组件’这一根本假设进行系统性挑战与验证。
关键思路

将原本为自回归建模设计的无注意力模型Avey彻底重构为纯编码器范式：引入静态（可学习位置先验）与动态（输入驱动）参数解耦机制实现隐式双向建模；采用稳定性增强的LayerNorm变体（StableNorm）缓解训练发散；结合轻量级神经压缩模块替代softmax归一化，显著降低长序列复杂度——整体摒弃显式注意力，但仍保持全局上下文感知能力。
其它亮点

在标准token分类（CoNLL-2003、POS）、信息检索（MSMARCO、BEIR子集）基准上全面超越DistilBERT、TinyBERT、MobileBERT和ALBERT；支持长达8K tokens的上下文且内存占用仅为同性能Transformer的42%；所有实验代码、预训练检查点及推理脚本已开源（GitHub: avey-encoder）；值得深入的方向包括：静态/动态参数的理论表达边界分析、神经压缩对梯度传播的影响建模、以及向多模态编码器的迁移适配。
相关研究

Attention-Free Transformers (AFT, 2021); Linformer: Self-Attention with Linear Complexity (ICLR 2021); FlashAttention: Fast and Memory-Efficient Exact Attention (NeurIPS 2022); Mamba: Linear-Time Sequence Modeling with Selective State Spaces (ICML 2024); RingAttention: Multi-GPU Context Parallelism for Large Language Models (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问