分论坛预告 | 多模态智能

分论坛简介

伴随着视觉、语言、音频等多源信息深度融合的技术突破，多模态智能已成为推动人工智能迈向更强通用性与更丰富应用生态的关键引擎。多模态生成、理解与交互模型正在重塑内容创作、虚拟现实、智能制造、医疗健康等诸多场景，同时也带来了算力消耗、模型安全与价值对齐等新挑战。本论坛将聚焦“多模态智能”的核心理论与前沿实践，围绕多模态表征学习、统一生成框架、跨模态推理、低成本高效部署及安全可控机制等热点议题展开探讨，力求在学术研究和产业落地之间架设桥梁，挖掘多模态智能的潜在价值、厘清发展边界，促进创新成果的共享与转化。

分论坛主席

朱军，清华大学计算机系博世人工智能冠名教授、IEEE/AAAI Fellow、清华大学人工智能研究院副院长、计算机系人智实验室主任，曾任卡内基梅隆大学兼职教授。主要从事机器学习研究，发表CCF A类会议/期刊论文百余篇；担任国际著名期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等（资深）领域主席20余次；曾获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等，入选国家级高层次人才计划、中国计算机学会青年科学家、MIT TR35中国先锋者、IEEE AI 10 to Watch等。研发UniDiffuser、ProlificDreamer、DPM-Solver等多模态生成模型和高效算法。

贾珈，清华大学信息学院党的工作领导小组组长、计算机科学与技术系党委书记，长聘教授，国家杰出青年科学基金获得者、国家级青年人才称号获得者。主要研究方向为人工智能、情感计算、人机交互。曾获高等教育国家级教学成果二等奖、北京市高等教育教学成果奖一等奖、电子学会科技进步一等奖、人工智能学会年度优秀成果奖、教育部科技进步二等奖以及NeurIPS、ACM SIGMM、ACM Multimedia、IJCAI等评选的多项论文奖励。

分论坛讲者&报告简介

报告题目

面向生成式模型的低精度量化技术

报告摘要

生成式模型的训练推理成本高昂。本报告将介绍若干最新的低精度量化技术，包括低精度注意力、低精度训练、显存压缩技术等。这些技术能够加速多模态生成式模型的推理，并降低训练过程的计算及存储资源开销。

讲者简介

陈键飞，清华大学计算机系准聘副教授。2010-2019年获清华大学学士和博士学位。从事高效机器学习研究，谷歌学术引用5000余次。担任IEEE TPAMI的副主编，担任ICLR等会议领域主席。获得CCF青年人才发展计划、清华大学学术新人奖等。

报告题目

基于概率生成模型的音频研究进展

报告摘要

概率生成模型在音频合成及处理领域正发挥着日益重要的作用。本报告将从概率生成模型基础出发，介绍其中的概率扩散模型在跨模态音频生成，如语音合成、文生音频、视频配音等方向上的研究进展，继而介绍近期的桥类模型在音频处理，如语音增强、音频超分、空间音频合成等方向上的研究成果。

讲者简介

陈泽华，清华大学计算机系水木学者博士后、助理研究员。于英国帝国理工学院电气与电子工程系获博士学位、国防科学技术大学获本科与硕士学位。主要研究方向为概率生成模型及其在语音、音效、音乐生成上的应用。在生数科技、英国TikTok、微软云与AI、京东人工智能研究院等多家科技公司研究跨模态音频生成、语音合成、音频增强等领域，在机器学习和语音领域的重要国际会议ICML、NeurIPS、ICASSP等发表十余篇论文，其中文生音频工作AudioLDM已获近700次引用，GitHub stars二千余次。

报告题目

基于扩散模型的视频内容生成

报告摘要

近年来，扩散模型凭借其强大的生成能力和训练稳定性，已成为视频内容生成领域的核心范式。本报告将系统介绍该技术方向的关键进展：以视频生成基础模型为基石，通过高效长度外推技术突破时序限制，进而支撑图生视频生成与可控编辑等重要应用场景。

讲者简介

赵敏，清华大学TSAIL 团队助理研究员，研究方向为基于扩散模型的视觉内容生成。以第一作者发表在NeurIPS、ICML、ICLR等顶级会议和期刊发表论文数篇，是生数科技视频生成大模型Vidu的核心开发者之一，并入选2024年清华大学“水木学者”。

报告题目

面向大模型的多模态交互技术研究

报告摘要

随着以 DeepSeek 为代表的大语言模型快速提升推理能力，人机群体协作在高度专业化场景展现出巨大应用潜力。然而，多模态人机交互仍面临语义抽取不准、动作生成不可控、双向融合不自然等挑战。本报告聚焦三大关键环节：首先，提升视听等多模态信息的精细感知与高层语义理解；其次，利用细粒度控制信号，实现复杂语义下的可控交互动作生成；最后，多维度多模态感知生成一体化交互方法，实现多模态信息的高效融合与协同。

讲者简介

秦霄羽，清华大学计算机科学与技术系博士后、助理研究员，在英国伯明翰大学获得博士学位。主要研究方向为人工智能理论以及多模态人机交互，在相关领域国际重要会议ICLR、ACM Multimedia等发表论文近20篇；申请国家发明专利6项，授权2项；作为核心骨干参与国家重点研发计划、国家实验室重大专项等多个重大项目的技术攻关。

后续我们将继续更新本次学术年会相关信息，敬请持续关注！

点击下方关注我们

关次本次年会已发布的其他分论坛预告请查看下方合集：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

分论坛预告 | 多模态智能

评论列表

评论