- 简介理解长篇视觉文档——其中信息分布在大量文本和视觉元素构成的多页内容中——对现代视觉-语言模型(VLM)而言是一项关键却极具挑战性的任务。现有方法面临一个根本性难题:证据定位。它们难以准确检索相关页面,并常常忽略视觉元素中的细粒度细节,导致性能受限并容易产生模型幻觉。为解决这一问题,我们提出了DocLens,一种工具增强型多智能体框架,能够像镜头一样有效地“聚焦”于关键证据。该框架首先从整份文档导航至相关页面上的具体视觉元素,再通过采样-裁决机制生成唯一可靠的答案。结合Gemini-2.5-Pro,DocLens在MMLongBench-Doc和FinRAGBench-V两个基准测试上均取得了当前最优的性能表现,甚至超越了人类专家。该框架在以视觉为核心以及无法回答的问题上表现尤为突出,充分展现了其增强型定位能力的强大优势。
-
- 图表
- 解决问题论文试图解决现有视觉-语言模型(VLMs)在处理长篇视觉文档时难以准确定位证据的问题,尤其是在跨多页文本和复杂视觉元素中检索相关信息时表现不佳,容易产生幻觉或遗漏关键细节。这个问题在当前的研究中尚未被有效解决,尤其在需要精细视觉理解的场景下显得尤为突出。
- 关键思路提出DocLens,一种基于工具增强的多智能体框架,通过‘逐步聚焦’的方式模拟人类阅读过程:首先从整篇文档导航到相关页面,再进一步定位到具体的视觉元素。其核心是‘采样-裁决’机制,多个智能体并行生成答案后由裁判智能体整合为单一可靠输出,显著提升证据定位精度和回答可靠性。
- 其它亮点DocLens结合Gemini-2.5-Pro,在MMLongBench-Doc和FinRAGBench-V两个权威长文档基准上达到SOTA性能,甚至超越人类专家水平。尤其在视觉中心型问题和不可回答问题上的表现突出,验证了其强大的定位与推理能力。实验设计严谨,涵盖多种复杂文档类型;目前尚未提及代码是否开源,但该框架具有高度可扩展性,未来可集成更多工具或应用于法律、金融等专业文档理解领域。
- 1. “Don't Read Too Much Into It: Summarization as a Hallucination Mitigation Strategy for Long-Context VLMs” 2. “LongContext-VL: A Benchmark for Long-context Vision-and-Language Understanding” 3. “VisualDOC: A Framework for Visual Document Comprehension with Structured Reasoning” 4. “LayoutReader: Pretraining of Text and Layout Encoders for Document Image Understanding” 5. “Multimodal Chain-of-Thought Reasoning in Large Vision-Language Models”
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流