SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

2025年03月14日
  • 简介
    我们提出了 SmolDocling,这是一种超紧凑的视觉-语言模型,旨在实现端到端的文档转换。我们的模型通过生成 DocTags(一种全新的通用标记格式)来全面处理整页内容,这种格式能够结合位置信息捕捉所有页面元素及其完整上下文。与现有的依赖大型基础模型或基于多个专业化模型手工设计管道的集成解决方案不同,SmolDocling 在一个仅包含 2.56 亿参数的视觉-语言模型中提供了端到端的转换功能,能够准确捕获文档元素的内容、结构和空间位置。SmolDocling 在正确重现各类文档特征(如代码列表、表格、公式、图表、列表等)方面表现出强大的性能,适用于包括商业文档、学术论文、技术报告、专利和表单在内的多种文档类型——远远超越了通常对科学论文的关注范围。此外,我们还贡献了针对图表、表格、公式和代码识别的全新公开数据集。实验结果表明,SmolDocling 的性能可与体积大 27 倍的其他视觉-语言模型相媲美,同时大幅降低了计算需求。目前,该模型已可供使用,相关数据集也将很快公开。
  • 图表
  • 解决问题
    该论文试图解决文档转换中的内容、结构和空间位置的全面捕捉问题,尤其是针对各种类型的文档(如商业文档、学术论文、技术报告等)进行端到端处理。这是一个重要但具有挑战性的问题,因为现有的方法通常依赖于大型基础模型或复杂的多模型流水线。
  • 关键思路
    SmolDocling 提出了一种超紧凑的视觉-语言模型,仅包含 256M 参数,却能实现端到端的文档转换。其关键思路是引入 DocTags,一种新的通用标记格式,能够全面捕获页面元素及其上下文和位置信息。相比现有方法,SmolDocling 不依赖于大规模基础模型或复杂的手工设计管道,而是通过单一模型完成任务,显著降低了计算需求。
  • 其它亮点
    1. SmolDocling 在多种文档类型上表现出色,包括代码列表、表格、公式、图表等复杂内容;2. 论文贡献了多个新颖的公开数据集(如图表、表格、公式和代码识别数据集);3. 实验表明,SmolDocling 的性能可与多达 27 倍参数量的大型视觉语言模型媲美;4. 模型已开源,数据集也将公开,为未来研究提供了良好的基础;5. 其轻量化设计为资源受限环境下的应用开辟了新方向。
  • 相关研究
    最近的相关研究包括:1. LayoutLM 系列工作,专注于结合文本和布局信息进行文档理解;2. DocFormer,提出了一种用于文档分析的变压器架构;3. Donut 和 DocBank,分别探索了无文本监督的文档理解和大规模文档标注数据集的构建;4. 其他研究如 Formulabank 和 TableBank,则分别专注于数学公式和表格的理解。这些研究大多依赖于更大的模型或更复杂的流水线,而 SmolDocling 则以紧凑性和端到端能力见长。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论