LogME：通用快速准确的预训练模型评估方法

在深度学习时代，神经网络的参数量越来越大，从头开始训练(train from scratch)的成本也越来越大。幸运的是，在计算机视觉、自然语言处理等人工智能应用的主要领域，人们能够采用迁移学习的预训练-微调范式来有效降低训练成本。迁移学习使得深度神经网络以预训练模型的形式走进千家万户，不用上千块TPU，我们也能够使用BERT、EfficientNet等大型模型。

如今，对于深度学习框架来说，丰富的预训练模型库已经是标配了(例如TensorFlow Hub, Torchvision Models)。在一些研究领域(比如2020年非常热门的自监督学习)，研究成果最终也是以预训练模型的方式呈现给社区。在深度学习社区里，一些热门领域已经积累了成百上千个预训练模型。

面对众多预训练模型，我们在进行迁移时，该用哪一个好呢？这个重要问题很少有人研究，因此人们目前只好使用一些简单粗暴的办法:

使用常见的预训练模型(例如ResNet50)
使用预训练指标(例如ImageNet准确率)高的模型

如果想要准确地选择最好的预训练模型，我们需要把每一个候选模型都做一遍微调。因为微调涉及到模型训练，时间至少几个小时起步。有些预训练模型的微调还需要进行超参数搜索，想要决定一个预训练模型的迁移效果就需要将近50个小时！

针对这一问题，我们进行了深入探究，提出了一种名为LogME的方法。它能极大地加速预训练模型选择的过程，将衡量单个预训练模型的时间从50个小时减少到一分钟，疯狂提速三千倍！

详细内容请查看链接原文。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

LogME：通用快速准确的预训练模型评估方法

评论