Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

简介

尽管近年来语言模型（LM）取得了巨大进展，这主要归功于从为特定任务设计的专用模型转向基于强大架构（例如Transformer）的通用模型，并通过原始数据自主学习所有内容，但诸如分词等预处理步骤仍然是实现真正端到端基础模型的一大障碍。我们提出了一系列新技术，实现了动态分块机制，该机制能够与模型其他部分联合自动学习内容和上下文相关的分割策略。将这一机制引入一个明确的层次化网络（H-Net），可以取代传统的（隐式具有层次结构的）分词-LM-反分词流程，代之以完全端到端训练的单一模型。在计算资源和数据量相当的情况下，一个采用字节级别单层层次结构的H-Net优于一个基于BPE分词的强Transformer语言模型。进一步将层次结构扩展至多个阶段，可以通过建模多个抽象层级而进一步提升性能，在数据扩展性方面表现出显著优势，并且效果可媲美其两倍大小的基于分词的Transformer模型。在英文数据上预训练的H-Net展现出更强的字符级鲁棒性，并且无需任何启发式规则或显式监督即可定性地学到有意义的、依赖数据的分块策略。最后，在分词启发式方法较弱的语言和模态（如中文、代码或DNA序列）中，H-Net相较于传统分词流程的优势更加明显（在数据效率方面相较基线模型提升近4倍），显示出真正的端到端模型在从原始数据中学习和扩展方面的巨大潜力。
图表
解决问题

论文试图解决传统语言模型中预处理步骤（如分词）对端到端基础模型的阻碍问题。尽管当前模型已从任务专用模型转向基于强大架构（如Transformer）的通用模型，但依赖于人工设计或启发式方法的tokenization仍然限制了模型的灵活性和性能，特别是在非标准语言、代码或DNA序列等场景下。
关键思路

提出了一种动态分块机制（dynamic chunking mechanism），该机制能够与模型一起联合学习内容和上下文相关的分段策略，并将其嵌入到一个显式的层次网络（H-Net）中，从而完全端到端地替代传统的“分词-语言模型-去分词”流程。这种方法在字节级别上操作，且可以通过多阶段层次结构建模多个抽象层次。
其它亮点

{"H-Net在计算资源和数据量匹配的情况下，超越了基于BPE token的Transformer模型。",多阶段层次结构进一步提升了模型性能，并在数据扩展性方面显著优于基线模型，相当于两倍大小的Transformer。,模型在英文预训练任务中表现出更强的字符级鲁棒性，并无需任何启发式或监督即可学习有意义的数据相关分块策略。,在中文、代码以及DNA序列等弱tokenization启发式场景中表现突出，数据效率提升接近4倍。,实验设计覆盖多种语言和模态，验证了模型在不同领域的普适性和潜力。}
相关研究

{"Attention Is All You Need (Vaswani et al., 2017)","BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018)","ByteNet: A Neural Network for Variable-Length Sequence Processing (Kalchbrenner et al., 2016)","Convolutional Sequence Modeling Revisited (Gehring et al., 2017)","Efficient Training of Language Models to Fill in the Middle (He et al., 2021)","Unsupervised Tokenization for Machine Translation (Cherry et al., 2018)","Neural Discrete Representation Learning (Van Den Oord et al., 2017)"}

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论