- 简介事件相机相对于标准相机具有低延迟、高时间分辨率和高动态范围等优势。由于这种独特的成像范式转变,研究的主要方向是事件到视频(E2V)重建,以建立事件驱动和标准计算机视觉之间的桥梁。然而,由于事件相机只能在本地检测边缘和运动信息,因此这项任务具有固有的不适定性,重建的视频经常受到由事件数据语义模糊性引起的伪影和区域模糊的困扰。本文发现语言自然地传达了丰富的语义信息,因此在确保E2V重建的语义一致性方面,语言表现出惊人的优越性。因此,我们提出了一个新的框架,称为LaSe-E2V,可以从语言引导的角度实现语义感知的高质量E2V重建,支持文本条件扩散模型。然而,由于扩散模型的固有多样性和随机性,直接将其应用于实现E2V重建的空间和时间一致性几乎是不可能的。因此,我们首先提出了一个事件引导的时空注意力(ESA)模块,以有效地将事件数据调整到去噪管道中。然后,我们引入了一个事件感知的掩膜损失,以确保时间上的一致性和噪声初始化策略以增强空间上的一致性。鉴于缺乏事件-文本-视频配对数据,我们聚合现有的E2V数据集,并使用标记模型生成文本描述进行训练和评估。在涵盖多种具有挑战性情景(如快速运动、低光)的三个数据集上的大量实验表明了我们方法的优越性。
- 图表
- 解决问题本文旨在解决event-to-video (E2V)重建中的语义一致性问题,提出了一种新的LaSe-E2V框架,利用语言信息来指导E2V重建,以实现高质量的语义感知E2V重建。
- 关键思路本文提出了一种新的LaSe-E2V框架,利用文本条件扩散模型来实现语义感知E2V重建。同时,引入了事件引导的时空注意力模块、事件感知的掩膜损失以及噪声初始化策略来增强空间和时间一致性。
- 其它亮点本文在三个数据集上进行了广泛的实验,证明了该方法的优越性。此外,本文还利用标记模型生成文本描述来训练和评估,解决了缺乏事件-文本-视频配对数据的问题。
- 在最近的相关研究中,也有一些关于E2V重建的工作,如《Event-based Video Frame Interpolation with a Light-weighted Flow Estimation Network》和《Event-based Video Object Segmentation with a Spatiotemporal Transformer Network》。
沙发等你来抢
去评论
评论
沙发等你来抢