直播｜阿里通义千问Qwen2.5-VL解析，如何让大模型更好地看世界，论文一作分享

报告主题：Qwen2.5-VL：如何让大模型更好地看世界

报告日期：03月21日（本周五）10:30-11:30

报告要点:

Qwen2.5-VL是Qwen视觉语言系列的最新旗舰模型，包括从3B到72B的多个尺度的模型，以满足从边缘AI到高性能计算的各种应用场景。Qwen2.5-VL除了在基础的视觉识别出色、也具备更通用的目标定位能力、以及强大的文档解析和长视频理解方面能力，从而可以更好地理解世界并与世界互动。Qwen2.5-VL的一个突出特点是能够使用边界框或点准确地定位物体。它可以从发票、表格和表格中鲁棒地提取结构化信息，也对图表、图示和布局进行详细分析。为了处理复杂输入，Qwen2.5-VL引入了动态分辨率处理和绝对时间编码，使其能够处理不同大小的图像和长达一小时的视频，并实现秒级事件的定位。同时我们从头训练一个原生动态分辨率的视觉编码器，在结构上结合了Window Attention，使得模型在保持原生分辨率的同时减少了计算开销。因此，Qwen2.5-VL不仅在静态图像和文档理解方面表现出色，还可以作为一个交互式视觉代理，在操作计算机和移动设备等现实场景中具备推理、工具使用和任务执行的能力。旗舰版Qwen2.5-VL-72B模型在文档和图示理解方面可媲美最先进的模型如GPT-4o和Claude 3.5 Sonnet。此外，Qwen2.5-VL保持了强大的语言性能，保留了Qwen2.5纯文本模型的核心语言能力。

报告嘉宾：

白帅，阿里巴巴Qwen团队高级算法专家，毕业于北京邮电大学。他的研究领域包括视觉表征、多模态学习和视觉统一理解生成，曾在多个顶级会议发表高水平论文，引用量9500+。负责打造QwenVL系列模型，不断推进多模态大模型更好地理解世界，保持开源开放。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

直播｜阿里通义千问Qwen2.5-VL解析，如何让大模型更好地看世界，论文一作分享

评论