近期,字节跳动的论文 《Robust High-Resolution Video Matting with Temporal Guidance 》被 WACV 2022 收录,官方 GitHub 库于近期以 GPL-3.0 许可证开源。

RVM 项目开放线上公开测试

此次开源的 RVM 项目专为稳定人物视频抠像设计,可在任意视频上做实时高清抠像。不同于现有神经网络将每一帧作为单独图片处理,RVM 使用循环神经网络,在处理视频流时有时间记忆。

经测试,RVM 支持在 Nvidia GTX 1080Ti 上实现 4K 76FPS 和 HD 104FPS。

此研究项目的团队来自字节跳动。

项目 GitHub:

https://github.com/PeterL1n/RobustVideoMatting

项目论文:

https://arxiv.org/abs/2108.11515

墙内 Colab:

https://openbayes.com/console/open-tutorials/containers/oqv42tbd8ko

RVM 的网络架构包括:

  • 特征提取编码器:提取单帧特征;
  • 循环解码器:综合时间信息;
  • 深度引导滤波(DGF)模块:高分辨率采样。

值得注意的是,模型在内部将高分辨率输入缩小做初步的处理,然后再放大做细分处理。所以建议用户设置 downsample_ratio 使缩小后的分辨率维持在 256 到 512 像素之间。

另外,正因为此模型基于循环神经网络(Recurrent Neural Network),所以必须按顺序处理视频每帧,并提供网络循环记忆。

项目成员非常贴心,模型分别基于 MobileNetV3、ResNet50 实现,还支持了PyTorch、TorchHub、TorchScript、ONNX、TensorFlow、TensorFlow.js、CoreML 等主流框架。

内容中包含的图片若涉及版权问题,请及时与我们联系删除