CVPR 2023总结

CVPR 2023总结：今年的论文主题主要涉及多视角和传感器的3D研究、图像和视频生成、面部/身体/姿势估计、持续学习、多模态(视觉+语言)、高效建模等。

与会期间，演讲者们经常提到机器人领域可能会在计算机视觉的帮助下迎来下一次颠覆，Twitter仍然是研究人员分享论文和更新的主要平台，计算机视觉研究的几个趋势：神经符号方法、数据驱动方法、高效生成模型、上下文感知渲染与综合、整体框架以及数据集和基准。

这是我亲自参加CVPR 2023的收获。

以下为原文正文，机器翻译

原文地址：http://aicoco.net/s/3u 今年会议收到了9155份意见书，并接受了2359篇论文（接受率为25.8%）。这意味着这个数字每年都在增长；见下图。

今年会议的大多数论文都来自多视图和传感器的3D（隐式表示，许多NERF）、图像和视频生成（主要是扩散模型）、面部/身体/姿势估计、持续学习、多模式（视觉+语言）、高效建模等主题。详细的统计数据见会议网站上的下图。

在小组讨论和特邀演讲中，演讲者经常提到，在计算机视觉的帮助下，机器人领域可能是下一个受到破坏的领域。

推特仍然是研究人员分享论文和更新的主要平台。顺便说一句，这是我的 — https://twitter.com/dobkomaria
没有平行的口头会议是一个好主意。
我还喜欢访问学者收件箱——这是一个根据预先选择的兴趣领域和研究人员推荐论文的收费。
在PAMI-TC会议期间，社交媒体禁令被解除。现在，作者在Arxiv上上传作品并提交给CVPR后，可以在社交媒体上推广他们的作品。
由于签证申请问题，许多作者无法参加会议。对于许多来自乌克兰的研究人员来说，由于战争，亲自去甚至不是一个选项。因此，由于没有演讲者，一些海报插槽是空的。

在这里，我分享了一些（15）我在会议上看到的令人难忘的论文，无论是在海报会议期间还是由演讲者推荐的。我的研究兴趣在于多模式学习（语言+视觉）、医学成像和自我监督方法。因此，我下面提到的论文来自这些主题。

注意：为亮点选择的论文在Youtube上发布了简短的录音——链接。

瓶中语言：可解释图像分类的语言模型指导概念瓶颈，链接

“语言引导瓶颈（LaBo）利用语言模型GPT-3来定义可能存在瓶颈的大空间。给定一个问题领域，Labow使用GPT-3生成有关类别的事实句子，以形成候选概念。LaBo通过一种新的子模块实用程序有效地搜索可能的瓶颈，该实用程序促进了歧视性和多样化信息的选择。GPT-3的判级概念可以使用CLIP与图像对齐，以形成瓶颈层。”——来自论文

2.I-JEPA：通过联合嵌入预测架构从图像中自我监督学习，链接

主要想法：预测抽象表示空间中缺少的信息：

使用上下文来预测图像中的目标位置
不要预测像素，而是预测表示

“从单个上下文块，预测同一图像中各种目标块的表示。指导I-JEPA生成语义表示的核心设计选择是屏蔽策略；具体来说，至关重要的是（a）具有足够大规模（语义）的样本目标块，以及（b）使用信息量足够信息（空间分布）的上下文块。”

3.Imagic：使用扩散模型进行基于文本的真实图像编辑，链接

给定真实图像和目标文本提示：（A）我们对目标文本进行编码并获得初始文本嵌入etgt，然后对其进行优化以重建输入图像，获得eopt；（B）然后我们微调生成模型，以提高对输入图像的保真度，同时修复eopt；©最后，我们用etgt插值eopt以生成最终编辑结果。——src：原始论文

4.视觉DNA：使用神经元激活分布表示和比较图像，链接

5.魔鬼在查询中：推进现实世界医疗图像分割和分发外本地化的面具变压器，链接

提出一种新颖的方法，MaxQuery，使用查询响应的最高分数作为OOD本地化的主要指标。提出查询分布（QD）损失，将查询集中在重要的前景区域，以显示近OOD问题的卓越有效性。

6.GeoMAE：自我监督点云预培训的蒙面几何目标预测，链接

7.ConvNeXt V2：使用屏蔽自动编码器共同设计和扩展ConvNets，链接

8.揭晓：使用多源多模态知识记忆的检索增强视觉语言预培训，链接

9.CLIP-S4：语言引导自我监督语义分割，链接

10。基于定向连接的医疗图像分割，链接

11.OneFormer：一个变压器来统治通用图像分割，链接

12.文本到图像扩散的多概念定制，链接

13.MAGE：MAsked生成编码器来统一表示学习和图像合成，链接

14.BadDiffusion：如何后门扩散模型？，链接

15.Mask DINO：迈向基于变压器的统一对象检测和分割框架，链接

我要求ChatGPT寻找趋势，并总结考虑获奖论文的摘要。答案（略微编辑后）：

“根据所提供的作为CVPR 2023获奖候选人的论文，我们可以确定计算机视觉研究的几个趋势：

神经符号方法：论文“视觉编程：没有培训的组成视觉推理”介绍了一种名为VISPOG的神经符号方法，该方法利用大型语言模型生成类似python的模块化程序来解决复杂的视觉任务。这一趋势表明，探索将神经网络与符号推理相结合，以提高视觉推理能力。
数据驱动方法：论文“事件相机的数据驱动特征跟踪”介绍了事件相机的数据驱动特征跟踪方法，该方法利用低延迟事件并将知识从合成数据传输到真实数据。这种趋势侧重于利用大量数据并从中学习，以提高性能和概括性。
高效生成模型：两篇论文《关于引导扩散模型的蒸馏》和《MobileNeRF：利用多边形光栅化管道在移动架构上进行高效神经场渲染》，探讨了图像生成模型的效率。他们提出了蒸馏方法和替代表示，以加快采样过程，并使这些模型更加实用和易于理解。
上下文感知渲染和合成：论文“DreamBooth：为主体驱动的生成微调文本到图像扩散模型”和“DynIBaR：基于神经动态图像的渲染”分别侧重于增强文本提示图像的合成和从视频中生成新颖的视图。这些论文强调了在图像合成和渲染任务中考虑上下文信息和动态场景理解的重要性。
整体框架：论文“面向规划的自动驾驶”介绍了统一自动驾驶（UniAD）的概念，这是一个将感知、预测和规划任务整合到单个网络中的综合框架。这一趋势强调开发统一的框架，为最终目标进行优化，从而在自动驾驶的不同任务之间实现更好的协调和绩效。
数据集和基准：论文“OmniObject3D：用于现实感知、重建和生成的大词汇3D对象数据集”和“最大群的3D注册”侧重于创建用于3D对象理解和点云注册的大规模数据集和基准。这些努力旨在为推进现实3D视觉的研究和改进算法的性能评估提供资源。

神经符号方法表明，在复杂的视觉任务中扩展人工智能系统的能力很有希望。
数据驱动的方法和转移学习在提高绩效和概括性方面发挥着重要作用。
效率和实用性是图像生成和渲染模型的重要考虑因素。
上下文信息和动态场景理解提高了图像合成和渲染的质量。
集成多个任务的整体框架可以提高性能和协调性。
数据集和基准对于推进计算机视觉中的研究和评估算法性能至关重要。”

内容中包含的图片若涉及版权问题，请及时与我们联系删除

评论