LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks

2024年05月23日
  • 简介
    许多实际决策中的关键任务都依赖于具有校准不确定性估计的机器学习算法。然而,现代方法往往会产生过于自信和不可校准的预测。各种方法涉及训练一个独立模型的集合来量化与模型本身相关的不确定性,即认知不确定性。在显式实现中,集合方法具有高计算成本和高内存要求。这个特定的挑战在最先进的神经网络(如变压器)中表现得十分明显,即使是单个网络在计算和内存方面也已经很有要求了。因此,人们努力在不实例化单独的集合成员的情况下模拟集合模型,称为隐式集合。我们介绍了一种名为LoRA-Ensemble的参数高效的深度集合方法,用于自我注意网络,它基于低秩适应(LoRA)。最初是为了有效的LLM微调而开发的,我们将LoRA扩展到一种隐式集合方法。通过使用单个预训练的自我注意网络,其权重在所有成员之间共享,我们训练成员特定的低秩矩阵,用于注意投影。我们的方法在校准方面表现出优越性,比显式集合实现具有更好的准确性,并且在各种预测任务和数据集上实现了类似或更好的准确性。
  • 图表
  • 解决问题
    解决机器学习模型过于自信和不可靠的问题,提出一种高效的深度集成方法
  • 关键思路
    使用LoRA(Low-Rank Adaptation)方法,基于一个预训练的自注意力网络,通过训练成员特定的低秩矩阵来实现隐式集成
  • 其它亮点
    LoRA-Ensemble方法在各种预测任务和数据集上实现了类似或更好的准确性,同时表现出比显式集成更好的校准性。该方法具有参数效率,可节省计算和内存资源。实验结果表明,LoRA-Ensemble方法可以在不同任务和数据集上实现更好的性能。
  • 相关研究
    在近期的相关研究中,也有一些关于深度集成的工作,如Deep Ensembles、Snapshot Ensembles、Weight Averaging等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论