SportsSloMo：人类中心视频帧插值的新基准和基线

SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

解决问题：这篇论文的目标是解决人类中心视频帧插值的问题，即在体育分析行业中合成慢动作视频。该论文提出了一个新的数据集SportsSloMo，致力于填补社区中缺乏针对人类中心场景的数据集的空白。

关键思路：论文的关键思路是在SportsSloMo数据集上重新训练了几种最先进的方法，并引入了两个考虑人类先验的损失项，分别是全景分割和人类关键点检测的辅助监督。这两个损失项是模型无关的，可以轻松地插入到任何视频帧插值方法中。实验结果验证了这些损失项的有效性，并建立了强大的基准模型。

其他亮点：该论文的数据集包含超过130K个视频剪辑和1M个高分辨率（≥720p）的慢动作体育视频帧，从YouTube中爬取。该论文还提出了两个新的人类先验损失项，这对于解决人类中心视频帧插值问题具有重要意义。论文提出的方法在SportsSloMo数据集上表现良好，可以为体育分析和娱乐体验提供更好的视频效果。

相关研究：近期其他相关的研究包括：

"Deep Video Frame Interpolation using Cyclic Frame Generation"，作者为Jae Woong Soh和Nam Ik Cho，机构为韩国科学技术院。
"Video Frame Interpolation via Adaptive Separable Convolution"，作者为Yulan Guo、Xinwei Sun、Jianxin Lin和Yongjie Liang，机构为南京邮电大学。
"Deep Slow Motion Video Reconstruction with Hybrid Imaging System"，作者为Yi Zhang、Xingbo Wang、Xiaolong Liu、Xiaoyu Chen和Yebin Liu，机构为北京大学。

论文摘要：这篇论文介绍了一个名为SportsSloMo的基准测试集，其中包含超过130,000个视频剪辑和1,000,000个高分辨率（≥720p）慢动作运动视频的视频帧，这些视频从YouTube上爬取。作者重新训练了几种最先进的方法，并发现它们的准确性与其他数据集相比有所下降。这突显了这个基准测试集的难度，并表明即使是表现最好的方法，它也面临着重大的挑战，因为人体高度可变形，运动视频中的遮挡情况也很频繁。为了提高准确性，作者引入了两个考虑人类先验知识的损失项，其中一个是对全景分割进行辅助监督，另一个是对人类关键点检测进行辅助监督。这些损失项与模型无关，可以轻松地插入到任何视频帧插值方法中。实验结果验证了作者提出的损失项的有效性，并在现有的5个模型上实现了一致的性能提升，为这个基准测试集建立了强大的基线模型。数据集和代码可以在https://neu-vi.github.io/SportsSlomo/找到。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

SportsSloMo：人类中心视频帧插值的新基准和基线

评论列表

评论