HF Papers直播 AI Insight Talk | OCR 专场

https://huggingface.co/collections/AI-Insight/hf-papers-live-6-ocr

由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 等联合发起的【AI Insight Talk】系列直播活动第6场 - OCR专场就在明天！

本次直播，我们将深入剖析三项引领行业变革的突破性技术方案，旨在呈现从通用识别到专业解析、从单一语言到全球多语种支持、从理论攻坚到应用落地的全景图。同时，还将举办圆桌对谈，汇聚多位顶尖开发者同台交流，碰撞思想火花。精彩内容，不容错过！

📅 直播时间：2025 年 12 月 4 日（周四）20:00 - 22:00（北京时间）

分享嘉宾及主题介绍

混元视觉大模型算法工程师李庚洛

HunyuanOCR 是一款仅 1B 参数的轻量级商业级开源 VLM，采用 Native ViT 与轻量 LLM 的纯端到端架构，在文本检测、解析、信息抽取、VQA 和图文翻译等任务上取得显著性能提升。模型在轻量框架内统一支持多项 OCR 能力，摆脱传统流水线前处理的依赖，有效减少误差累积，并通过高质量数据与 RL 策略进一步增强表现。在多项评测中，HunyuanOCR 超越商用 API、传统方案及更大规模模型，在 ICDAR 2025 DIMT 小模型赛道夺得第一，并在 OCRBench 上取得 3B参数规模下的领先成绩。目前模型已在 HuggingFace 正式开源。本次分享将介绍其技术创新、实验结果及能力亮点。

https://huggingface.co/spaces/tencent/HunyuanOCR

百度高级工程师孙婷

PaddleOCR-VL 是一款针对文档解析的最优且资源高效的模型。其核心组件为 PaddleOCR-VL-0.9B，这是一款结构紧凑但功能强大的视觉-语言模型（VLM），通过整合 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，实现了精准的元素识别能力。该创新模型高效支持 109 种语言，在识别复杂元素（如文本、表格、公式及图表）方面表现卓越，同时保持极低的资源消耗。

经广泛使用的公开基准测试与内部基准测试的全面验证，PaddleOCR-VL 在页面级文档解析与元素级识别两个维度均达到最优性能。其性能显著超越现有解决方案，在与顶级视觉-语言模型的对比中展现出强劲竞争力，并具备快速推理速度。这些优势使其非常适合在实际场景中部署应用。

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

上海人工智能实验室算法工程师何天尧

大模型时代信息获取转向智能问答，文档解析成核心需求。MinerU 作为开源工具，先以 pipeline 方案破局，再从 2.0 端到端 VLM（小参数高效推理）迭代至 2.5 两阶段解耦原生分辨率模型，布局检测更细、复杂元素解析精准。配套 OmniDocBench 评测集覆盖多样文档场景，MinerU2.5 解析精度首次达到 90 分以上，提供了精准高效的文档解析解决方案。本次分享，将介绍 MinerU & OmniDocBench 的技术迭代路线，背后的思考以及展望。

https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B

参与讨论

欢迎加入讨论群，与本期作者和社区小伙伴一起交流！

12月4日晚上20点，不见不散！

内容中包含的图片若涉及版权问题，请及时与我们联系删除

HF Papers直播 AI Insight Talk | OCR 专场

分享嘉宾及主题介绍

评论列表

评论

HF Papers直播 AI Insight Talk | OCR 专场

分享嘉宾及主题介绍

HunyuanOCR：混元原生多模态端到端 OCR 专家

PaddleOCR-VL：支持 109 种语言的轻量化多模态文档解析方案

MinerU：高效精准的文档解析技术攻坚

评论列表

评论