近期,字节跳动的论文 《Robust High-Resolution Video Matting with Temporal Guidance 》被 WACV 2022 收录,官方 GitHub 库于近期以 GPL-3.0 许可证开源。
RVM 项目开放线上公开测试
此次开源的 RVM 项目专为稳定人物视频抠像设计,可在任意视频上做实时高清抠像。不同于现有神经网络将每一帧作为单独图片处理,RVM 使用循环神经网络,在处理视频流时有时间记忆。
经测试,RVM 支持在 Nvidia GTX 1080Ti 上实现 4K 76FPS 和 HD 104FPS。
此研究项目的团队来自字节跳动。
项目 GitHub:
https://github.com/PeterL1n/RobustVideoMatting
项目论文:
https://arxiv.org/abs/2108.11515
墙内 Colab:
https://openbayes.com/console/open-tutorials/containers/oqv42tbd8ko
RVM 的网络架构包括:
- 特征提取编码器:提取单帧特征;
- 循环解码器:综合时间信息;
- 深度引导滤波(DGF)模块:高分辨率采样。
值得注意的是,模型在内部将高分辨率输入缩小做初步的处理,然后再放大做细分处理。所以建议用户设置 downsample_ratio 使缩小后的分辨率维持在 256 到 512 像素之间。
另外,正因为此模型基于循环神经网络(Recurrent Neural Network),所以必须按顺序处理视频每帧,并提供网络循环记忆。
项目成员非常贴心,模型分别基于 MobileNetV3、ResNet50 实现,还支持了PyTorch、TorchHub、TorchScript、ONNX、TensorFlow、TensorFlow.js、CoreML 等主流框架。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢