- 简介事件相机相比标准相机具有低延迟、高时间分辨率和高动态范围等优势。由于独特的成像范式,目前的主要研究方向是事件到视频(E2V)的重建,以建立事件驱动和标准计算机视觉之间的桥梁。然而,由于事件相机仅在本地检测边缘和运动信息,这一任务具有固有的不适定性,因此重建的视频经常受到众多因素的影响,主要是由于事件数据的语义不确定性导致的众多伪影和区域模糊。本文发现,语言自然地传达了丰富的语义信息,因此在保证E2V重建的语义一致性方面,语言表现出惊人的优越性。因此,我们提出了一种新的框架,称为LaSe-E2V,它可以从语言引导的角度实现语义感知的高质量E2V重建,这得益于文本条件扩散模型的支持。然而,由于扩散模型的固有多样性和随机性,直接应用它们实现E2V重建的时空一致性是非常困难的。因此,我们首先提出了一个事件引导的时空注意力(ESA)模块,以有效地将事件数据条件化到去噪管道中。然后,我们引入了一个事件感知的掩模损失来确保时间上的一致性,以及一种噪声初始化策略来增强空间一致性。由于缺乏事件-文本-视频配对数据,我们聚合了现有的E2V数据集,并使用标记模型生成文本描述进行训练和评估。在涵盖多种具有挑战性场景(例如快速移动、低光)的三个数据集上进行的大量实验证明了我们方法的优越性。数据集和代码将在接受后提供。
- 图表
- 解决问题本论文旨在解决event-to-video (E2V)重建中的语义一致性问题,提出了一种基于语言引导的框架LaSe-E2V
- 关键思路论文的关键思路是使用自然语言的语义信息来保证E2V重建的语义一致性,并提出了事件引导的时空注意力模块、事件感知的掩膜损失和噪声初始化策略等方法来提高空间和时间上的一致性
- 其它亮点论文使用现有的E2V数据集并使用标注模型生成文本描述进行训练和评估,实验结果表明该方法在多个具有挑战性的场景下表现优异。论文提供了数据集和代码。
- 近期的相关研究包括:Event-based Vision,Event-based Reconstruction,Event-based Object Detection等。
沙发等你来抢
去评论
评论
沙发等你来抢