【周四直播】比肩DeepSeek-OCR，清华&智谱Glyph核心框架，实现图像文本压缩新范式

报告主题：比肩DeepSeek-OCR，图像文本压缩新范式，Glyph核心框架实现

报告日期：11月13日（周四）10:30-11:30

报告要点:

本期报告将由清华大学&智谱程家乐进行分享。

随着现实任务越来越复杂，大模型在处理超长文本时常常遇到计算和显存的瓶颈。主流方法大多通过改进注意力机制或进行长度外推来扩展上下文，但这些方案在长度进一步增加时仍会面临性能与成本的挑战。

相反，我们从输入端出发，探索了一条全新的上下文扩展路径。提出的 Glyph 框架，将长文本“画”成图像，让大模型以“看”的方式理解语义，从而用更少的 token 处理更多的上下文。在 LongBench、MRCR 等基准上，Glyph 在 3–4× 压缩下的表现仍媲美领先的文本模型；在极限压缩比下，还能让 128K 模型处理百万级 token 任务。这个方向与 DeepSeek-OCR 的思路不谋而合，验证了用 VLM 扩展长上下文的可行性与潜力。

论文：https://arxiv.org/abs/2510.17800

仓库：https://github.com/thu-coai/Glyph

报告嘉宾：

程家乐，清华大学计算机科学与技术系博士研究生，对话式人工智能课题组成员，师从黄民烈教授。研究聚焦大语言模型与多模态大模型的后训练对齐，在 ICLR、ACL、EMNLP、ICCV 等国际顶级会议发表多篇论文，谷歌学术引用量超过 2000 次。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【周四直播】比肩DeepSeek-OCR，清华&智谱Glyph核心框架，实现图像文本压缩新范式

评论列表

评论