在线教程｜消费级显卡也能运行？轻量级模型OCRFlux-3B首次实现复杂文本智能识别

作者：吴紫晗

编辑：李宝珠

转载请联系本公众号获得授权，并标明来源

「OCRFlux-3B：智能文本识别工具包」已上线至 HyperAI超神经官网（hyper.ai）的教程板块，一键部署即可在线体验将 PDF Document 、Image Document 和 Multiple Files 转换为可检索的 Markdown 文本

论文党转换 PDF 时终于不再苦恼公式、表格和跨页文本打乱布局了！

支持批量文档解析、结构化信息抽取、兼容跨页内容合并……ChatDOC 团队发布的基于多模态大型语言模型的工具包 OCRFlux-3B，能够将 PDF 和图像转换为干净、可读、纯文本的 Markdown 格式。

OCRFlux-3B 提供了页面级别的文本转换功能，能够准确地将 PDF 和图像中的文本转换成 Markdown 格式。该工具不仅能处理重复表头、跨行或跨列、横向分页、嵌套结构等复杂表格，而且能够识别论文中的复杂公式，同时还支持跨页面的表格和段落的合并，即使在多列布局、图形和插入物的复杂情况下，也能保持文本的自然阅读顺序。研究人员将 PDF 文件转化成可编辑和搜索的 Markdown 文本后，即可快速提取 PDF 文档中的表格和公式。目前，OCRFlux-3B 是开源 OCR 项目中首次实现该能力的模型。

OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模态视觉语言模型微调的轻量级模型，因此在消费级显卡（如 GTX 3090）上也能运行。

目前，「OCRFlux-3B：智能文本识别工具包」已上线至 HyperAI超神经官网（hyper.ai）的教程板块，一键部署即可在线体验将 PDF Document 、Image Document 和 Multiple Files 转换为可检索的 Markdown 文本，快来体验吧～

教程链接：
https://go.hyper.ai/0K2OY

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n

Demo 运行

1.进入 hyper.ai 首页后，选择「教程」页面，并选择「OCRFlux-3B：智能文本识别工具包」，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090」，OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」。在选择镜像「PyTorch」后，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n