直播｜AAAI 2026 Outstanding Paper Award 微软亚洲研究院，多模态表征模型能力边界LLM2CLIP

报告主题：AAAI 2026 Outstanding Paper Award｜多模态表征模型能力边界LLM2CLIP

报告日期：01月29日（周四） 10:30-11:30

报告要点：

本期报告将由同济大学黄伟泉进行分享。

CLIP 是多模态表征学习领域的奠基性工作，通过在海量图文对上进行对比学习，将图像与文本映射到统一的表示空间，在零样本理解与跨模态检索等任务中取得了广泛成功。然而，现有 CLIP 类模型在理解长文本、复杂描述以及蕴含丰富世界知识的语义表达方面仍存在明显瓶颈。

受大语言模型（LLM）在语言理解与知识建模方面快速进展的启发，本报告将介绍 LLM2CLIP：一种将 LLM 高效引入 CLIP 体系、显著扩展其多模态表征能力的通用框架。该方法在几乎不增加训练成本的前提下，将 LLM 的语言理解能力注入预训练 CLIP 模型中，尤其显著提升其对长文本与复杂语义的建模能力。具体而言，LLM2CLIP 首先对 LLM 进行面向 CLIP 场景的“嵌入化”（embedding-ization），随后通过一个轻量级适配器将其与预训练的 CLIP 视觉编码器进行耦合，仅需在数百万规模的图文数据上进行微调即可完成训练，无需大规模重训模型。

在这一高效训练策略下，LLM2CLIP 在多个基准上显著超越 EVA02、SigLIP-2 等当前最强 CLIP 变体。

相关论文：

LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation

报告嘉宾：

黄伟泉，同济大学计算机博士研究生，主要研究方向是多模态表征学习，多模态大模型以及图像生成与编辑。在ICCV、ACL、AAAI、WWW、MM等国际顶级会议发表多篇高水平论文。

长期参与微软 Phi-3、Phi-4 等大模型体系的研发，多项核心技术已成功转化并应用于 Office、Azure 等微软重要产品与平台。提出的 LLM2CLIP 系列工作获得 AAAI 2026 Outstanding Paper Award，在多模态表征学习方向产生了广泛影响。

PC端观看地址

更多热门内容

内容中包含的图片若涉及版权问题，请及时与我们联系删除

直播｜AAAI 2026 Outstanding Paper Award 微软亚洲研究院，多模态表征模型能力边界LLM2CLIP

评论列表

评论