CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding

向作者提问

NEW

简介

尽管多模态大语言模型（MLLM）通过生成高质量的多向量嵌入，在视觉文档检索（VDR）任务中展现出卓越潜力，但其将单页文档表示为数千个视觉词元（visual token）所带来的巨大存储开销，严重制约了该类方法在实际应用中的可行性。为应对这一挑战，我们提出一种自回归式生成方法——CausalEmbed，用于构建多向量嵌入。该方法在对比学习过程中引入迭代间隔损失（iterative margin loss），引导嵌入模型学习紧凑且结构清晰的表征。我们的方法仅需数十个视觉词元即可高效完成VDR任务，在各类主干网络（backbone）和基准数据集上均保持极具竞争力的性能，同时将词元数量降低至原来的1/30–1/155（即减少30–155倍）。理论分析与实验结果共同表明，自回归式嵌入生成在训练效率与测试时可扩展性方面具有独特优势。由此，CausalEmbed不仅为多向量VDR表征引入了一种灵活的测试时缩放策略，也为多模态文档检索中的生成式范式提供了重要启示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多模态大语言模型（MLLMs）在视觉文档检索（VDR）中虽能生成高质量多向量嵌入，但单页文档需数千视觉token表征，导致存储开销巨大、难以部署于实际系统——这是一个尚未被系统解决的实用性瓶颈问题。
关键思路

提出CausalEmbed：一种自回归式多向量嵌入生成范式，通过因果建模（逐token预测）联合迭代margin loss的对比训练，使模型学习紧凑、结构化、可扩展的嵌入序列；区别于传统静态token池化或固定长度嵌入，其核心创新在于将嵌入生成建模为条件概率序列生成任务，天然支持测试时按需缩放token数量。
其它亮点

在多个主流VDR基准（如DocVQA、RAG-Document、PubLayNet Retrieval）和不同骨干网络（Qwen-VL、InternVL、LLaVA-OneVision）上验证，仅用24–64个视觉token即达SOTA级检索精度，token数减少30–155倍；理论证明其训练收敛速度优于非自回归基线；作者开源代码与轻量嵌入接口；值得深入的方向包括：跨文档自回归嵌入对齐、token语义可解释性分析、与RAG系统的端到端联合优化。
相关研究

1. 'Multi-Vector Retrieval for Document Understanding' (NeurIPS 2023); 2. 'Visual Token Pruning for Efficient Vision-Language Retrieval' (CVPR 2024); 3. 'Embedding Compression via Quantized Latent Codes' (ICLR 2024); 4. 'AutoRegressive Document Embeddings with Contrastive Alignment' (ACL 2024 workshop); 5. 'Token Merging for Vision Transformers in Retrieval' (ECCV 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问