Virbo: Multimodal Multilingual Avatar Video Generation in Digital Marketing

简介

随着全球互联网名人营销的广泛普及，短视频制作逐渐成为了一种流行的产品信息展示方式。然而，传统的视频制作行业通常包括一系列的流程，如剧本编写、在专业工作室拍摄视频、视频剪辑、特效渲染、定制后期处理等等。更不用说，对于那些不会说多种语言的人来说，多语言视频是不可获取的。这些复杂的流程通常需要一个专业团队来完成，这使得短视频制作在时间和金钱上都很昂贵。本文介绍了一种智能系统，支持自动生成说话头像视频，即Virbo。只需用户指定脚本，Virbo就可以使用深度生成模型生成目标说话视频。同时，该系统还支持多模态输入，以指定面部、指定声音和特效来自定义视频。该系统还集成了一个多语言定制模块，支持生成批量的多语言说话头像视频，拥有数百个精美的模板和创意特效。通过一系列的用户研究和演示测试，我们发现Virbo可以生成保持高质量的视频，就像来自专业团队一样，同时显著降低整个制作成本。这个智能系统将有效促进视频制作行业，并促进跨越语言障碍和成本挑战的互联网营销。
图表
解决问题

本论文旨在解决短视频制作过程中所需的复杂流程和高昂成本的问题，提出了一种智能系统Virbo，支持自动生成说话人物视频，包括多语言视频，以降低整个制作成本。
关键思路

Virbo使用深度生成模型根据用户指定的脚本自动生成目标视频，并支持多模态输入进行定制化，同时还集成了多语言定制模块，支持批量生成数百个精美模板和创意特效的多语言说话人物视频。
其它亮点

Virbo通过一系列用户研究和演示测试，发现其可以生成与专业团队相当的高质量视频，同时显著降低整个制作成本。该系统还支持多语言视频生成和定制化，有望有效推动视频制作行业和促进互联网营销。
相关研究

近年来，自动生成视频的相关研究逐渐增多，如基于GAN的视频生成、视频自动剪辑等。相关论文包括：'Generative Adversarial Networks for Video Generation and Compressed Sensing-based Video Autoencoder'、'AutoCut: Automatic Video Editing through Recursive Data Analysis'等。

Virbo: Multimodal Multilingual Avatar Video Generation in Digital Marketing

评论