报告主题:ICCV2025 最佳学生论文|迈向三维重建基础模型RayZer

报告日期:11月07日(周五)10:30-11:30

报告要点:
本期报告将由Adobe Research 江翰文进行分享。

在语言和二维视觉领域,基础模型(Foundation Models)通过减少模型设计中的归纳偏置、利用海量数据以及采用无监督预训练,取得了令人瞩目的扩展性进展。相比之下,三维重建模型的发展则相对滞后,主要受到以下三方面的限制:

(a) 模型架构中强烈的几何先验;

(b) 有限的标注训练数据;

(c) 对完全监督学习的依赖。

在本次报告中,我将介绍我在提升三维重建模型可扩展性方面的研究工作,涵盖上述三个维度。首先,我将展示如何通过基于 Transformer 的模型架构,减少三维几何归纳偏置,使模型能够直接从数据中学习几何先验。接着,我会介绍我们在数据层面的扩展工作,如何结合大规模的合成数据与真实世界数据来提升模型的泛化能力。最后,我将介绍一种自监督的多视图合成模型,它能够充分利用无标注数据资源,并在性能上超越传统的全监督方法。

报告嘉宾:
江翰文是 Adobe Research 的研究员。他的研究致力于拓展三维视觉(3D Vision)的边界,推动其走向更广阔的应用领域。他的目标是构建具备空间与物理理解能力的可扩展学习范式与模型,为空间智能奠定基础。他在德克萨斯大学奥斯汀分校(UT Austin)获得计算机科学博士学位。

扫码报名,或点击阅读原文


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除