2024智源大会议程公开丨视觉大模型

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。

北京智源大会倒计时：9 天

视觉大模型论坛丨6月15日上午

本次AI视觉大模型论坛聚焦于AI领域的热门话题，即如何利用深度学习技术从大量的图像或视频数据中学习和提取特征，以实现图像分类、目标检测、人脸识别等任务。AI视觉大模型的应用已经渗透到医疗、教育、金融等多个领域。论坛邀请了来自多领域的专家、学者和研究人员，共同探讨和分享AI在科学研究中的潜力和应用。论坛内容涵盖了从高保真4D重构模型到高效视频生成模型，再到多模态模型的整合和个性化图像的生成等多个主题。期待通过这次论坛的交流和合作，能在AI视觉大模型领域实现突破和创新。

论坛议程

论坛主席

颜水成，智源学者，昆仑万维2050全球研究院院长

Prof. Yan is currently Visiting Chief Scientist at Beijing Academy of Artificial Intelligence (non-profit organization), and former Group Chief Scientist of Sea Group.

Prof. Yan Shuicheng is a Fellow of Singapore's Academy of Engineering, AAAI, ACM, IEEE, and IAPR. His research areas include computer vision, machine learning, and multimedia analysis. Till now, Prof Yan has published over 600 papers at top international journals and conferences, with an H-index of 130+. He has also been named among the annual World's Highly Cited Researchers eight times.

Prof. Yan's team received ten-time winners or honorable-mention prizes at two core competitions, Pascal VOC and ImageNet (ILSVRC), deemed the “World Cup” in the computer vision community. Besides, his team won more than ten best papers and best student paper awards, particularly a grand slam at the ACM Multimedia, the top-tiered conference in multimedia, including the Best Paper Awards thrice, Best Student Paper Awards twice, and Best Demo Award once.

程明明，南开大学杰出教授，计算机系主任

程明明，南开大学杰出教授，计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇（含IEEE TPAMI论文30余篇），h-index为80，论文谷歌引用5万余次，单篇最高引用4900余次，多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学：信息科学》编委。

演讲主题及嘉宾介绍（按照发言先后顺序）

1、高保真 4D 重构模型 Vidu4D

鲍凡，生数科技CTO

清华大学计算机系本科、博士生，从事多模态大模型和扩散模型的研究，相关领域发表十余篇学术顶会论文，其一作论文Analytic-DPM获得世界级学术奖项ICLR 2022杰出论文奖，是该会议首篇由中国大陆单位独立完成的获奖论文，并作为核心技术被应用到OpenAI发布的大规模跨模态生成模型DALL·E 2上。鲍凡提出全球首个Diffusion和Transformer的融合架构U-ViT，并基于此架构提出了大规模多模态生成模型UniDiffuser。最近，鲍凡还带领团队实现国内首个长时长、高一致性、高动态性视频生成大模型Vidu，依然基于U-ViT架构，支持一键生成长达16秒、分辨率高达 1080P 的高清视频内容。Vidu获得包括央视在内的国内外媒体的广泛关注。

2、OPEN-SORA高效低成本视频生成模型

尤洋，新加坡国立大学校长青年教授，潞晨科技创始人兼董事长

尤洋教授是清华大学硕士，加州伯克利大学博士，新加坡国立大学计算机系的校长青年教授。他曾创造ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录，并被ScienceDaily、The Next Web、i-programmer等几十家媒体广泛报道，相关技术被广泛应用于谷歌、微软、英特尔、英伟达等科技巨头。他近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等国际重要会议或期刊上发表论文十余篇，总计发表论文近百篇。他曾以第一作者获国际并行与分布式处理大会(IPDPS)的最佳论文、国际并行处理大会(ICPP)的最佳论文，AAAI、ACL杰出论文等。他曾获清华大学优秀毕业生，以及当时清华大学计算机系数额最高的西贝尔奖学金。他在2017年获得美国计算机协会(ACM)官网上唯一颁给在读博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship。他获得颁发给伯克利优秀毕业生的Lotfi A. Zadeh Prize。他被UC Berkeley提名为ACM Doctoral Dissertation Award候选人(81名UC Berkeley EECS 2020博士毕业生中选2人)。他曾任职于谷歌、微软、英伟达、英特尔和IBM，在2021年被选入福布斯30岁以下精英榜 (亚洲)并获得IEEE-CS超算杰出新人奖。

3、视觉和语言：多模态模型的发展

李俊男，Independant Researcher

李俊男博士是多模态大模型领域的研究专家，迄今google scholar的引用量已经达到一万一千。他博士毕业于新加坡国立大学，从事视觉领域研究。李博士在Salesforce AI Research曾领导多模态团队发表了多篇高影响力的论文，包括BLIP系列工作和LAVIS开源框架，推动了多模态大模型的发展。李博士在其他领域也有多篇高影响力论文，包括视觉自监督学习，表征学习，代码大模型等。

4、高效能个性化图像生成

程明明，南开大学杰出教授，计算机系主任

5、圆桌论坛：视觉又重回第一赛道？

圆桌讨论嘉宾：

颜水成｜智源学者，昆仑万维2050全球研究院院长

鲍凡｜生数科技CTO

尤洋｜新加坡国立大学校长青年教授，潞晨科技创始人兼董事长

李俊男｜ Independant Researcher

程明明｜南开大学教授，计算机系主任

即刻扫码注册，参与大会报名

本届大会采用线下与线上模式融合，报名通道已开启，欢迎扫码免费注册。由于线下席位有限，请尽早完成注册，组委会将根据注册次序审核，并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

大会合作、咨询、赞助欢迎联系：press@baai.ac.cn

大会官网 https://baai.org/l/baai2024

内容中包含的图片若涉及版权问题，请及时与我们联系删除

2024智源大会议程公开丨视觉大模型

评论列表

评论