- 简介多模态嵌入模型旨在生成具有丰富信息的统一表征,以支持多种跨模态任务。尽管从基于CLIP的双塔架构演进到大规模视觉-语言模型已取得令人鼓舞的进展,但现有研究在真实应用场景和商业实践中仍面临一些不可避免的挑战,例如模态支持有限、训练机制不稳定以及工业领域差距等问题。本文提出了SAIL-Embedding,这是一种通用多模态嵌入基础模型,通过定制化的训练策略和架构设计有效应对上述问题。在优化过程中,我们提出了一种多阶段训练方案,以提升表征学习在多个维度上的有效性。具体而言,内容感知的渐进式训练旨在增强模型对多样化下游任务的适应能力,并掌握更丰富的跨模态理解能力;协作感知的推荐增强训练则通过蒸馏序列到物品(sequence-to-item)和ID到物品(ID-to-item)嵌入的知识,并挖掘用户历史兴趣,进一步优化多模态表征在推荐场景中的表现。同时,我们设计了随机专业化机制和数据集驱动的模式匹配方法,以增强模型训练的灵活性和泛化能力。实验结果表明,SAIL-Embedding在多种检索任务中均优于其他方法,达到当前最优性能。在结合该模型开展的多个真实场景在线实验中,我们观察到“用户生命周期”(Lifetime, LT)这一衡量推荐体验的关键指标显著提升。例如,在抖音精选(Douyin-Selected)场景中,模型带来了7天LT +0.5%的增长;对于抖音信息流排序模型,由SAIL-Embedding生成的匹配特征使AUC提升了+0.1%。
-
- 图表
- 解决问题现有跨模态嵌入模型在实际应用中面临多模态支持有限、训练机制不稳定以及工业场景领域差距等挑战,尤其是在推荐系统等真实业务场景中表现受限。该问题虽非全新,但在工业级统一多模态表示建模方面仍存在显著空白。
- 关键思路提出SAIL-Embedding,一种全模态(omni-modal)嵌入基础模型,采用多阶段训练策略:内容感知的渐进式训练提升跨模态表征能力;协作感知的推荐增强训练通过蒸馏序列到物品和ID到物品的嵌入并挖掘用户历史兴趣,优化推荐场景下的表示;结合随机专业化和数据集驱动的模式匹配机制,增强训练灵活性与泛化性。
- 其它亮点在多个检索任务上达到SOTA性能;在线实验显示在抖音精选场景下7日LT提升+0.5%,在抖音信息流排序中AUC提升+0.1%;强调工业部署有效性与实际业务指标提升;未提及代码是否开源;值得深入研究其在更多垂直领域(如电商、搜索)的迁移能力及多任务联合优化机制。
- 1. Learning Transferable Visual Models From Natural Language Supervision (CLIP) 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. KOS: Kernel-based Orthogonalization for Unifying Vision-Language Representation 4. BEiT-3: Multi-Task Transformers with Unified Text-Visual Representation 5. M6: Efficient Multi-Modal Pre-training at Scale
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流