作者:Alexandra Chronopoulou, Matthew E. Peters, Jesse Dodge

简介:本文研究了以分层树结构的域表示实现预训练语言模型的分层。生成式的语言模型,在不同的通用领域语料库上进行训练,然而这就限制了它们对更窄领域的适用性,之前的工作表明,持续的领域内训练可以提供进一步的收益。在本文中,作者介绍了一种使用计算效率高的适配器方法将域适应扩展到许多不同域的方法。作者的方法基于对文本域部分重叠的观察,作者将域表示为分层树结构,其中树中的每个节点都与一组适配器权重相关联。当与冻结的预训练语言模型相结合时,这种方法可以实现相关领域之间的参数共享,同时避免不相关领域之间的负面干扰。该方法很高效:对于 D 个域,计算成本为 O(log(D))。GPT-2 的实验结果和 C4 中 100 个最具代表性的网站中的大部分显示了域内的全面改进。作者还为保留域提供了一种推理时间算法,并表明对通过树的多条路径进行平均可以进一步提高泛化效果,同时仅增加推理的边际成本。

论文下载:https://arxiv.org/pdf/2112.08786.pdf

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除