- 简介在现实世界中,文档以不同的格式和多样化的模式组织。传统的检索流程需要定制的文档解析技术和内容提取模块来准备索引的输入。这个过程繁琐、容易出错,并且存在信息损失。因此,我们提出了“文档截图嵌入”(DSE)这一新颖的检索范式,将文档截图视为一种统一的输入格式,不需要任何内容提取预处理并保留文档中的所有信息(例如文本、图像和布局)。DSE利用大型视觉语言模型将文档截图直接编码为密集表示以进行检索。为了评估我们的方法,我们首先创建了Wiki-SS数据集,该数据集包含1.3M个维基百科网页截图作为语料库,用于回答自然问题数据集中的问题。在这样一个文本密集的文档检索设置中,DSE相对于依赖解析的其他文本检索方法表现出了竞争力。例如,DSE在top-1检索准确度方面比BM25高出17个百分点。此外,在幻灯片检索的混合模态任务中,DSE在nDCG@10方面显著优于OCR文本检索方法超过15个百分点。这些实验证明,DSE是一种适用于各种类型文档的有效文档检索范式。模型检查点、代码和Wiki-SS收集将会发布。
-
- 图表
- 解决问题论文旨在提出一种新的文档检索范例,即将文档截图作为统一的输入格式,避免了传统的文本解析和内容提取预处理,并保留了文档中所有信息。同时,论文试图验证该方法的有效性和竞争性。
- 关键思路文档截图嵌入是一种新的文档检索范例,它利用大型视觉语言模型将文档截图直接编码为密集表示进行检索,避免了传统的文本解析和内容提取预处理,并保留了文档中所有信息。
- 其它亮点论文使用Wiki-SS数据集验证了DSE方法在文本密集的文档检索任务中的有效性,相比于传统的文本检索方法,DSE在top-1检索准确率上优势达到17个百分点。此外,在幻灯片检索任务中,DSE明显优于OCR文本检索方法,nDCG@10得分提高了15个百分点。论文提供了模型检查点、代码和Wiki-SS数据集。
- 在相关研究方面,最近的一些相关研究包括《End-to-End Learning of Semantic Role Labeling Using Recurrent Neural Networks》、《A Neural Algorithm of Artistic Style》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流