2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,本次智源大会汇聚四位图灵奖得主、海内外顶尖机构学者与产业领袖,在思辨与实证的交织中,为 AI 的未来绘制航图。目前报名通道已开启


2025北京智源大会倒计时:

多模态模型 论坛丨6月7日 上午

中关村国家自主创新示范区展示中心


近年来,多模态技术在图像识别、语音交互、自然语言处理等多个领域取得了令人瞩目的突破,推动了人工智能从感知智能向认知智能的跨越发展,为人工智能领域带来了新的突破和发展机遇。为深入探讨多模态技术的前沿动态、关键挑战与发展趋势,本次论坛邀请来自国内外产业界的9位行业代表,其中包括字节、腾讯等企业模型负责人,以及LumaAI和Sand.AI等领域明星创企创始人,他们将分别针对各自擅长的研究议题进行主旨报告,并将在报告后通过圆桌形式对多模态模型领域的公众所关注的热点问题进行深入讨论,使得听众们能够对多模态模型关键技术有着更为深刻的认识和理解。


论坛议程


论坛主席



王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,加拿大工程院外籍院士,IEEE/IAPR 会士,ACM杰出会员。曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作包括高分辨率神经网络(HRNet)、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索等。担任IEEE TPAMI、IJCV和ACM TOMM的编委会成员,(曾)担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等,担任ICCV 2025 程序委员会主席。





王鑫龙,智源研究院多模态大模型研究中心负责人

王鑫龙,智源研究院多模态大模型研究中心负责人。本科毕业于同济大学,博士毕业于澳大利亚阿德莱德大学,师从沈春华教授。他的研究兴趣是计算机视觉和基础模型,近几年研究工作包括视觉感知 (SOLO, SOLOv2),视觉表征 (DenseCL, EVA, EVA-CLIP),视觉基础模型(Painter, SegGPT),多模态基础模型(Emu, Emu2, Emu3)。入选Google PhD Fellowship、国家海外高层次青年人才,担任ICCV、ICLR、NeurIPS等会议领域主席。




演讲主题及嘉宾介绍
(按照发言先后顺序)

Broadening the scope of autoregressive models in vision and beyond



黎天鸿,MIT CSAIL Kaiming He组博士后研究员

黎天鸿博士是MIT CSAIL Kaiming He组的博士后研究员。他于MIT获得博士学位,导师为Dina Katabi教授,并在清华大学姚班获得学士学位。他近期的研究兴趣集中在表征学习、生成模型及二者之间的协同作用。长期来看,他致力于构建能够超越人类感知、深入理解并建模世界的智能视觉系统。他曾于2023年获得MathWorks奖学金,并担任过ICLR、ICML和ICCV等国际顶级会议的领域主席。



腾讯混元多模态生成模型实践




芦清林丨腾讯混元多模态生成负责人


芦清林博士聚焦多模态视觉生成领域,负责混元文生图、文生视频、及应用模型研发。率先采用双流DIT架构,带领团队研发混元DiT基础模型、插件模型矩阵和基于驱动的视频生成模型等,覆盖人像、建筑、游戏等垂类场景,其成果广泛应用于腾讯广告、游戏、云、社交等数十个业务场景;同时持续向业界开源图/视频生成模型,推动社区发展。



主题演讲




黄伟林,字节跳动Seed图像&视频生成负责人

黄伟林,现任字节跳动Seed图像&视频生成基础模型负责人,专注计算机视觉和深度学习相关的研究和应用。曾在牛津大学视觉几何组(VGG)和中国科学院从事研究工作,有深厚的学术积累和沉淀。工业界方面,曾负责超大规模商业视觉搜索系统,通过重构多模态搜索系统实现千亿级GMV增长。
目前,带领团队构建行业领先的多模态生成模型(e.g.Seedream/SeedEdit/Seedance等),并持续探索创新技术,积极推进模型商业化。



从推理优先的角度启发新的预训练范式


宋佳铭,LumaAI创始人

宋佳铭(Jiaming Song) 是美国视频生成领域创业公司Luma AI的首席科学家。在美国斯坦福大学读博期间,他开发了去噪扩散隐式模型(DDIM),这是首个将扩散模型加速到50倍,同时还能够保持产生多样化、高保真样本能力的模型,这项研究代表了扩散模型和生成AI领域的一次重要进步。目前他的研究兴趣在多模态生成模型和算法上的突破。



LLaDA:大语言模型新范式



李崇轩丨中国人民大学高瓴人工智能学院准聘副教授


李崇轩,中国人民大学高瓴人工智能学院准聘副教授,主要研究领域为生成模型,领导研发扩散语言模型LLaDA,部分成果部署于DALL·E2、Stable Diffusion、Vidu等行业领先模型。获ICLR杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等。担任 IEEE TPAMI 编委(AE)和 ICLR、NeurIPS等国际会议的领域主席(AC)。



圆桌讨论|工业界最前沿:多模态大模型的下半场


圆桌讨论嘉宾:

张   拯丨Sand.AI联合创始人

宋佳铭|Luma AI创始人

黄伟林|字节跳动Seed图像&视频生成负责人

李崇轩丨中国人民大学副教授

芦清林丨腾讯混元多模态生成负责人

黎天鸿丨MIT CSAIL Kaiming He组博士后研究员

李   根|《量子位》总编辑|主持人





张拯,Sand.AI联合创始人

张拯,Sand.AI联合创始人,加入Sand.AI之前,曾在MSRA视觉计算组任职。他是Swin Transformer,SimMiM, RelationNetwork, SoftTeacher, 等工作的主要作者之一。其中Swin Transformer获得ICCV Best Paper(Marr Prize)。





李根,量子位联合创始人、总编辑

李根,量子位联合创始人,现任总编辑,负责量子位、量子位智库和智能车参考的整体内容。2019年入选福布斯中国30Under30。



即刻扫码注册,参与大会报名
本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。
大会合作、咨询、赞助欢迎联系:press@baai.ac.cn
大会官网 https://2025.baai.ac.cn/
- 往期推荐 -

2025智源大会议程公开|深度推理模型论坛

2025智源大会议程公开|青年科学家发展与创新动能

点击「阅读原文」直达大会官网

本文版权归智源社区所有

内容中包含的图片若涉及版权问题,请及时与我们联系删除