
2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,本次智源大会汇聚四位图灵奖得主、海内外顶尖机构学者与产业领袖,在思辨与实证的交织中,为 AI 的未来绘制航图。目前报名通道已开启。
多模态模型 论坛丨6月7日 上午
中关村国家自主创新示范区展示中心
近年来,多模态技术在图像识别、语音交互、自然语言处理等多个领域取得了令人瞩目的突破,推动了人工智能从感知智能向认知智能的跨越发展,为人工智能领域带来了新的突破和发展机遇。为深入探讨多模态技术的前沿动态、关键挑战与发展趋势,本次论坛邀请来自国内外产业界的9位行业代表,其中包括字节、腾讯等企业模型负责人,以及LumaAI和Sand.AI等领域明星创企创始人,他们将分别针对各自擅长的研究议题进行主旨报告,并将在报告后通过圆桌形式对多模态模型领域的公众所关注的热点问题进行深入讨论,使得听众们能够对多模态模型关键技术有着更为深刻的认识和理解。

论坛主席
黎天鸿博士是MIT CSAIL Kaiming He组的博士后研究员。他于MIT获得博士学位,导师为Dina Katabi教授,并在清华大学姚班获得学士学位。他近期的研究兴趣集中在表征学习、生成模型及二者之间的协同作用。长期来看,他致力于构建能够超越人类感知、深入理解并建模世界的智能视觉系统。他曾于2023年获得MathWorks奖学金,并担任过ICLR、ICML和ICCV等国际顶级会议的领域主席。
芦清林丨腾讯混元多模态生成负责人
芦清林博士聚焦多模态视觉生成领域,负责混元文生图、文生视频、及应用模型研发。率先采用双流DIT架构,带领团队研发混元DiT基础模型、插件模型矩阵和基于驱动的视频生成模型等,覆盖人像、建筑、游戏等垂类场景,其成果广泛应用于腾讯广告、游戏、云、社交等数十个业务场景;同时持续向业界开源图/视频生成模型,推动社区发展。
黄伟林,现任字节跳动Seed图像&视频生成基础模型负责人,专注计算机视觉和深度学习相关的研究和应用。曾在牛津大学视觉几何组(VGG)和中国科学院从事研究工作,有深厚的学术积累和沉淀。工业界方面,曾负责超大规模商业视觉搜索系统,通过重构多模态搜索系统实现千亿级GMV增长。
李崇轩丨中国人民大学高瓴人工智能学院准聘副教授
李崇轩,中国人民大学高瓴人工智能学院准聘副教授,主要研究领域为生成模型,领导研发扩散语言模型LLaDA,部分成果部署于DALL·E2、Stable Diffusion、Vidu等行业领先模型。获ICLR杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等。担任 IEEE TPAMI 编委(AE)和 ICLR、NeurIPS等国际会议的领域主席(AC)。
张 拯丨Sand.AI联合创始人
宋佳铭|Luma AI创始人
黄伟林|字节跳动Seed图像&视频生成负责人
李崇轩丨中国人民大学副教授
芦清林丨腾讯混元多模态生成负责人
黎天鸿丨MIT CSAIL Kaiming He组博士后研究员

2025智源大会议程公开|深度推理模型论坛


本文版权归智源社区所有
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢