https://huggingface.co/collections/AI-Insight/hf-papers-live-6-ocr


由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 等联合发起的【AI Insight Talk】系列直播活动第6场 - OCR专场就在明天!

本次直播,我们将深入剖析三项引领行业变革的突破性技术方案,旨在呈现从通用识别到专业解析、从单一语言到全球多语种支持、从理论攻坚到应用落地的全景图。同时,还将举办圆桌对谈,汇聚多位顶尖开发者同台交流,碰撞思想火花。精彩内容,不容错过!

📅 直播时间:2025 年 12 月 4 日( 周四 )20:00 - 22:00(北京时间)


分享嘉宾及主题介绍

HunyuanOCR:混元原生多模态端到端 OCR 专家

混元视觉大模型算法工程师  李庚洛

HunyuanOCR 是一款仅 1B 参数的轻量级商业级开源 VLM,采用 Native ViT 与轻量 LLM 的纯端到端架构,在文本检测、解析、信息抽取、VQA 和图文翻译等任务上取得显著性能提升。模型在轻量框架内统一支持多项 OCR 能力,摆脱传统流水线前处理的依赖,有效减少误差累积,并通过高质量数据与 RL 策略进一步增强表现。在多项评测中,HunyuanOCR 超越商用 API、传统方案及更大规模模型,在 ICDAR 2025 DIMT 小模型赛道夺得第一,并在 OCRBench 上取得 3B参数规模下的领先成绩。目前模型已在 HuggingFace 正式开源。本次分享将介绍其技术创新、实验结果及能力亮点。

https://huggingface.co/spaces/tencent/HunyuanOCR

PaddleOCR-VL:支持 109 种语言的轻量化多模态文档解析方案

百度高级工程师  孙婷

PaddleOCR-VL 是一款针对文档解析的最优且资源高效的模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款结构紧凑但功能强大的视觉-语言模型(VLM),通过整合 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,实现了精准的元素识别能力。该创新模型高效支持 109 种语言,在识别复杂元素(如文本、表格、公式及图表)方面表现卓越,同时保持极低的资源消耗。

经广泛使用的公开基准测试与内部基准测试的全面验证,PaddleOCR-VL 在页面级文档解析与元素级识别两个维度均达到最优性能。其性能显著超越现有解决方案,在与顶级视觉-语言模型的对比中展现出强劲竞争力,并具备快速推理速度。这些优势使其非常适合在实际场景中部署应用。

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

MinerU:高效精准的文档解析技术攻坚

上海人工智能实验室算法工程师 何天尧

大模型时代信息获取转向智能问答,文档解析成核心需求。MinerU 作为开源工具,先以 pipeline 方案破局,再从 2.0 端到端 VLM(小参数高效推理)迭代至 2.5 两阶段解耦原生分辨率模型,布局检测更细、复杂元素解析精准。配套 OmniDocBench 评测集覆盖多样文档场景,MinerU2.5 解析精度首次达到 90 分以上,提供了精准高效的文档解析解决方案。本次分享,将介绍 MinerU & OmniDocBench 的技术迭代路线,背后的思考以及展望。

https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B


参与讨论

 欢迎加入讨论群,与本期作者和社区小伙伴一起交流!

12月4日晚上20点,不见不散!

内容中包含的图片若涉及版权问题,请及时与我们联系删除