图片

报告主题:Qwen2.5-VL:如何让大模型更好地看世界

报告日期:03月21日(本周五)10:30-11:30

报告要点:

Qwen2.5-VL是Qwen视觉语言系列的最新旗舰模型,包括从3B到72B的多个尺度的模型,以满足从边缘AI到高性能计算的各种应用场景。Qwen2.5-VL除了在基础的视觉识别出色、也具备更通用的目标定位能力、以及强大的文档解析和长视频理解方面能力,从而可以更好地理解世界并与世界互动。Qwen2.5-VL的一个突出特点是能够使用边界框或点准确地定位物体。它可以从发票、表格和表格中鲁棒地提取结构化信息,也对图表、图示和布局进行详细分析。为了处理复杂输入,Qwen2.5-VL引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和长达一小时的视频,并实现秒级事件的定位。同时我们从头训练一个原生动态分辨率的视觉编码器,在结构上结合了Window Attention,使得模型在保持原生分辨率的同时减少了计算开销。因此,Qwen2.5-VL不仅在静态图像和文档理解方面表现出色,还可以作为一个交互式视觉代理,在操作计算机和移动设备等现实场景中具备推理、工具使用和任务执行的能力。旗舰版Qwen2.5-VL-72B模型在文档和图示理解方面可媲美最先进的模型如GPT-4o和Claude 3.5 Sonnet。此外,Qwen2.5-VL保持了强大的语言性能,保留了Qwen2.5纯文本模型的核心语言能力。

报告嘉宾:
白帅,阿里巴巴Qwen团队高级算法专家,毕业于北京邮电大学。他的研究领域包括视觉表征、多模态学习和视觉统一理解生成,曾在多个顶级会议发表高水平论文,引用量9500+。负责打造QwenVL系列模型,不断推进多模态大模型更好地理解世界,保持开源开放。

图片

扫码报名


更多热门报告

图片

图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除