作者:吴紫晗

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


「OCRFlux-3B:智能文本识别工具包」已上线至 HyperAI超神经官网(hyper.ai)的教程板块,一键部署即可在线体验将 PDF Document 、Image Document 和 Multiple Files 转换为可检索的 Markdown 文本


论文党转换 PDF 时终于不再苦恼公式、表格和跨页文本打乱布局了!


支持批量文档解析、结构化信息抽取、兼容跨页内容合并……ChatDOC 团队发布的基于多模态大型语言模型的工具包 OCRFlux-3B,能够将 PDF 和图像转换为干净、可读、纯文本的 Markdown 格式。


OCRFlux-3B 提供了页面级别的文本转换功能,能够准确地将 PDF 和图像中的文本转换成 Markdown 格式。该工具不仅能处理重复表头、跨行或跨列、横向分页、嵌套结构等复杂表格,而且能够识别论文中的复杂公式,同时还支持跨页面的表格和段落的合并,即使在多列布局、图形和插入物的复杂情况下,也能保持文本的自然阅读顺序。研究人员将 PDF 文件转化成可编辑和搜索的 Markdown 文本后,即可快速提取 PDF 文档中的表格和公式。目前,OCRFlux-3B 是开源 OCR 项目中首次实现该能力的模型。


OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模态视觉语言模型微调的轻量级模型,因此在消费级显卡(如 GTX 3090)上也能运行。


目前,「OCRFlux-3B:智能文本识别工具包」已上线至 HyperAI超神经官网(hyper.ai)的教程板块,一键部署即可在线体验将 PDF Document 、Image Document 和 Multiple Files 转换为可检索的 Markdown 文本,快来体验吧~


教程链接:
https://go.hyper.ai/0K2OY


HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n


Demo 运行


1.进入 hyper.ai 首页后,选择「教程」页面,并选择「OCRFlux-3B:智能文本识别工具包」,点击「在线运行此教程」。




2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。



3.选择「NVIDIA GeForce RTX 4090」,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。在选择镜像「PyTorch」后,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!


HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n




4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。



效果演示


点击 API 地址即可进入 demo 页面体验该模型。进入模型页面后,上传 PDF Document / Image Document / Multiple Files 并点击「Process」就能生成相应的 Markdown 文本,效果如下:



论文中穿插的表格和公式,OCRFlux-3B 也能轻松识别:






这就是本期推荐的教程,欢迎大家亲自上手体验 ⬇️


教程链接:

https://go.hyper.ai/0K2OY



 往期推荐 


“阅读原文”,免费获取海量数据集资源!

内容中包含的图片若涉及版权问题,请及时与我们联系删除