SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
解决问题:这篇论文的目标是解决人类中心视频帧插值的问题,即在体育分析行业中合成慢动作视频。该论文提出了一个新的数据集SportsSloMo,致力于填补社区中缺乏针对人类中心场景的数据集的空白。
关键思路:论文的关键思路是在SportsSloMo数据集上重新训练了几种最先进的方法,并引入了两个考虑人类先验的损失项,分别是全景分割和人类关键点检测的辅助监督。这两个损失项是模型无关的,可以轻松地插入到任何视频帧插值方法中。实验结果验证了这些损失项的有效性,并建立了强大的基准模型。
其他亮点:该论文的数据集包含超过130K个视频剪辑和1M个高分辨率(≥720p)的慢动作体育视频帧,从YouTube中爬取。该论文还提出了两个新的人类先验损失项,这对于解决人类中心视频帧插值问题具有重要意义。论文提出的方法在SportsSloMo数据集上表现良好,可以为体育分析和娱乐体验提供更好的视频效果。
相关研究:近期其他相关的研究包括:
- "Deep Video Frame Interpolation using Cyclic Frame Generation",作者为Jae Woong Soh和Nam Ik Cho,机构为韩国科学技术院。
- "Video Frame Interpolation via Adaptive Separable Convolution",作者为Yulan Guo、Xinwei Sun、Jianxin Lin和Yongjie Liang,机构为南京邮电大学。
- "Deep Slow Motion Video Reconstruction with Hybrid Imaging System",作者为Yi Zhang、Xingbo Wang、Xiaolong Liu、Xiaoyu Chen和Yebin Liu,机构为北京大学。
论文摘要:这篇论文介绍了一个名为SportsSloMo的基准测试集,其中包含超过130,000个视频剪辑和1,000,000个高分辨率(≥720p)慢动作运动视频的视频帧,这些视频从YouTube上爬取。作者重新训练了几种最先进的方法,并发现它们的准确性与其他数据集相比有所下降。这突显了这个基准测试集的难度,并表明即使是表现最好的方法,它也面临着重大的挑战,因为人体高度可变形,运动视频中的遮挡情况也很频繁。为了提高准确性,作者引入了两个考虑人类先验知识的损失项,其中一个是对全景分割进行辅助监督,另一个是对人类关键点检测进行辅助监督。这些损失项与模型无关,可以轻松地插入到任何视频帧插值方法中。实验结果验证了作者提出的损失项的有效性,并在现有的5个模型上实现了一致的性能提升,为这个基准测试集建立了强大的基线模型。数据集和代码可以在https://neu-vi.github.io/SportsSlomo/找到。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢