
https://huggingface.co/collections/AI-Insight/hf-papers-live-6-ocr
由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 等联合发起的【AI Insight Talk】系列直播活动第6场 - OCR专场就在明天!
本次直播,我们将深入剖析三项引领行业变革的突破性技术方案,旨在呈现从通用识别到专业解析、从单一语言到全球多语种支持、从理论攻坚到应用落地的全景图。同时,还将举办圆桌对谈,汇聚多位顶尖开发者同台交流,碰撞思想火花。精彩内容,不容错过!
📅 直播时间:2025 年 12 月 4 日( 周四 )20:00 - 22:00(北京时间)
混元视觉大模型算法工程师 李庚洛
HunyuanOCR 是一款仅 1B 参数的轻量级商业级开源 VLM,采用 Native ViT 与轻量 LLM 的纯端到端架构,在文本检测、解析、信息抽取、VQA 和图文翻译等任务上取得显著性能提升。模型在轻量框架内统一支持多项 OCR 能力,摆脱传统流水线前处理的依赖,有效减少误差累积,并通过高质量数据与 RL 策略进一步增强表现。在多项评测中,HunyuanOCR 超越商用 API、传统方案及更大规模模型,在 ICDAR 2025 DIMT 小模型赛道夺得第一,并在 OCRBench 上取得 3B参数规模下的领先成绩。目前模型已在 HuggingFace 正式开源。本次分享将介绍其技术创新、实验结果及能力亮点。
https://huggingface.co/spaces/tencent/HunyuanOCR
百度高级工程师 孙婷
PaddleOCR-VL 是一款针对文档解析的最优且资源高效的模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款结构紧凑但功能强大的视觉-语言模型(VLM),通过整合 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,实现了精准的元素识别能力。该创新模型高效支持 109 种语言,在识别复杂元素(如文本、表格、公式及图表)方面表现卓越,同时保持极低的资源消耗。
经广泛使用的公开基准测试与内部基准测试的全面验证,PaddleOCR-VL 在页面级文档解析与元素级识别两个维度均达到最优性能。其性能显著超越现有解决方案,在与顶级视觉-语言模型的对比中展现出强劲竞争力,并具备快速推理速度。这些优势使其非常适合在实际场景中部署应用。
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
上海人工智能实验室算法工程师 何天尧
大模型时代信息获取转向智能问答,文档解析成核心需求。MinerU 作为开源工具,先以 pipeline 方案破局,再从 2.0 端到端 VLM(小参数高效推理)迭代至 2.5 两阶段解耦原生分辨率模型,布局检测更细、复杂元素解析精准。配套 OmniDocBench 评测集覆盖多样文档场景,MinerU2.5 解析精度首次达到 90 分以上,提供了精准高效的文档解析解决方案。本次分享,将介绍 MinerU & OmniDocBench 的技术迭代路线,背后的思考以及展望。
https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
参与讨论
欢迎加入讨论群,与本期作者和社区小伙伴一起交流!

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢