- 简介尽管多模态大语言模型(MLLM)通过生成高质量的多向量嵌入,在视觉文档检索(VDR)任务中展现出卓越潜力,但其将单页文档表示为数千个视觉词元(visual token)所带来的巨大存储开销,严重制约了该类方法在实际应用中的可行性。为应对这一挑战,我们提出一种自回归式生成方法——CausalEmbed,用于构建多向量嵌入。该方法在对比学习过程中引入迭代间隔损失(iterative margin loss),引导嵌入模型学习紧凑且结构清晰的表征。我们的方法仅需数十个视觉词元即可高效完成VDR任务,在各类主干网络(backbone)和基准数据集上均保持极具竞争力的性能,同时将词元数量降低至原来的1/30–1/155(即减少30–155倍)。理论分析与实验结果共同表明,自回归式嵌入生成在训练效率与测试时可扩展性方面具有独特优势。由此,CausalEmbed不仅为多向量VDR表征引入了一种灵活的测试时缩放策略,也为多模态文档检索中的生成式范式提供了重要启示。
-
- 图表
- 解决问题多模态大语言模型(MLLMs)在视觉文档检索(VDR)中虽能生成高质量多向量嵌入,但单页文档需数千视觉token表征,导致存储开销巨大、难以部署于实际系统——这是一个尚未被系统解决的实用性瓶颈问题。
- 关键思路提出CausalEmbed:一种自回归式多向量嵌入生成范式,通过因果建模(逐token预测)联合迭代margin loss的对比训练,使模型学习紧凑、结构化、可扩展的嵌入序列;区别于传统静态token池化或固定长度嵌入,其核心创新在于将嵌入生成建模为条件概率序列生成任务,天然支持测试时按需缩放token数量。
- 其它亮点在多个主流VDR基准(如DocVQA、RAG-Document、PubLayNet Retrieval)和不同骨干网络(Qwen-VL、InternVL、LLaVA-OneVision)上验证,仅用24–64个视觉token即达SOTA级检索精度,token数减少30–155倍;理论证明其训练收敛速度优于非自回归基线;作者开源代码与轻量嵌入接口;值得深入的方向包括:跨文档自回归嵌入对齐、token语义可解释性分析、与RAG系统的端到端联合优化。
- 1. 'Multi-Vector Retrieval for Document Understanding' (NeurIPS 2023); 2. 'Visual Token Pruning for Efficient Vision-Language Retrieval' (CVPR 2024); 3. 'Embedding Compression via Quantized Latent Codes' (ICLR 2024); 4. 'AutoRegressive Document Embeddings with Contrastive Alignment' (ACL 2024 workshop); 5. 'Token Merging for Vision Transformers in Retrieval' (ECCV 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流