- 简介高效地利用预训练模型中的丰富知识已经成为大模型时代的关键话题。本文的重点是自适应地利用来自多个源预训练模型的知识到一个未标记的目标域,而不需要访问源数据。尽管这是一个实用的设置,但现有的方法需要对每个源模型进行广泛的参数调整,当面对丰富的源域或更大的源模型时,这是计算上昂贵的。为了解决这个挑战,我们提出了一种新颖的方法,它不需要对源主干进行参数调整。我们的技术贡献在于双层注意力集成(Bi-ATEN)模块,它学习了域内权重和域间集成权重,以实现实例特异性和域一致性之间的良好平衡。通过轻微调整源瓶颈,我们在具有少于3%的训练参数和8倍吞吐量的情况下,在具有挑战性的基准测试DomainNet上实现了可比甚至更好的性能,相比于SOTA方法。此外,通过微小的修改,所提出的模块可以轻松装备到现有的方法中,并获得超过4%的性能提升。代码可在https://github.com/TL-UESTC/Bi-ATEN上获得。
- 图表
- 解决问题论文旨在解决如何在不访问源数据的情况下,自适应地利用多个源预训练模型的知识到一个未标记的目标域中的问题。同时,避免了现有方法需要对每个源模型进行大量参数调整的问题。
- 关键思路通过提出Bi-ATEN模块,学习源模型的内部权重和跨模型的集成权重,以实现实例特异性和域一致性之间的微妙平衡,从而自适应地利用多个源预训练模型的知识到目标域中。
- 其它亮点论文在DomainNet数据集上进行了实验,证明了提出的方法在使用少于3%的训练参数和8倍吞吐量的情况下,可以实现与SOTA方法相媲美甚至更好的性能。此外,该模块还可以轻松地装备到现有方法中,以获得超过4%的性能提升。代码已经开源。
- 在这个领域中,最近的相关研究包括:Multi-Source Domain Adaptation,Multi-Source Transfer Learning,Multi-Source Domain Generalization等。
沙发等你来抢
去评论
评论
沙发等你来抢