报告主题:比肩DeepSeek-OCR,图像文本压缩新范式,Glyph核心框架实现
报告日期:11月13日(周四)10:30-11:30
随着现实任务越来越复杂,大模型在处理超长文本时常常遇到计算和显存的瓶颈。主流方法大多通过改进注意力机制或进行长度外推来扩展上下文,但这些方案在长度进一步增加时仍会面临性能与成本的挑战。相反,我们从输入端出发,探索了一条全新的上下文扩展路径。提出的 Glyph 框架,将长文本“画”成图像,让大模型以“看”的方式理解语义,从而用更少的 token 处理更多的上下文。在 LongBench、MRCR 等基准上,Glyph 在 3–4× 压缩 下的表现仍媲美领先的文本模型;在极限压缩比下,还能让 128K 模型处理百万级 token 任务。这个方向与 DeepSeek-OCR 的思路不谋而合,验证了用 VLM 扩展长上下文的可行性与潜力。论文:https://arxiv.org/abs/2510.17800仓库:https://github.com/thu-coai/Glyph程家乐,清华大学计算机科学与技术系博士研究生,对话式人工智能课题组成员,师从黄民烈教授。研究聚焦大语言模型与多模态大模型的后训练对齐,在 ICLR、ACL、EMNLP、ICCV 等国际顶级会议发表多篇论文,谷歌学术引用量超过 2000 次。扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢