Jasper and Stella: distillation of SOTA embedding models

2024年12月26日
  • 简介
    许多深度学习应用(如FAQ和RAG)的一个关键组件是密集检索,其中嵌入模型用于将原始文本转换为数值向量,然后通过最大内积搜索(MIPS)获取最相似的文本。一些文本嵌入基准测试(例如MTEB、BEIR和AIR-Bench)已经建立,以准确评估嵌入模型。得益于这些基准测试,我们可以使用最先进的模型;然而,这些模型在工业中的部署和应用由于其较大的向量维度和众多参数而受到阻碍。为了解决这一问题,1) 我们提出了一种蒸馏技术,可以使较小的学生模型实现良好性能。2) 受MRL启发,我们提出了一种基于自身向量或教师向量减少向量维度的训练方法。3) 我们进行了简单而有效的图像与文本对齐训练,使我们的模型成为多模态编码器。我们使用上述技术训练了Stella和Jasper模型,并在MTEB排行榜上取得了高分。我们已在Hugging Face Hub (https://huggingface.co/infgrad/jasper_en_vision_language_v1) 上发布了模型和数据,训练日志可在 https://api.wandb.ai/links/dunnzhang0/z8jqoqpb 查看。
  • 图表
  • 解决问题
    论文试图解决的问题是当前深度学习应用中,特别是FAQ和RAG等任务中使用的嵌入模型在工业部署时遇到的挑战。具体来说,这些模型由于其高维度向量和庞大的参数量,在实际应用中难以高效部署。这是一个需要解决的重要问题,但并非全新的问题,因为模型压缩和加速一直是AI研究中的热点。
  • 关键思路
    关键思路包括:1) 使用知识蒸馏技术,通过训练一个较小的学生模型来模仿教师模型的表现,从而减少模型大小而不显著降低性能;2) 受到MRL(多分辨率学习)的启发,提出了一种基于自身或教师模型向量的降维训练方法;3) 进行简单的图像-文本对齐训练,使模型能够处理多模态数据。这些思路在现有研究基础上提出了创新的方法,特别是在结合多种技术以实现更高效的模型部署方面。
  • 其它亮点
    该论文的亮点在于它不仅提出了创新的技术来解决模型部署的问题,还展示了这些技术的有效性。实验设计包括使用MTEB、BEIR和AIR-Bench等多个基准进行评估,并且开源了训练好的Stella和Jasper模型以及训练日志。此外,模型被训练为一个多模态编码器,这为未来的研究提供了新的方向。值得继续深入研究的工作包括进一步优化模型的效率和探索更多应用场景。
  • 相关研究
    最近在这个领域中,相关的研究还包括: 1. "DistilBERT: A Smaller, Faster, Cheaper, Lighter Transformer Model" - 探索了Transformer模型的知识蒸馏。 2. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks" - 提出了用于句子嵌入的改进方法。 3. "Multimodal Learning with Deep Transformers for Video and Text Retrieval" - 研究了多模态数据处理的Transformer架构。 4. "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" - 讨论了CNN模型的高效扩展方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论