近日,微软正式发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),要用一个模型一统多模态天下!Florence可以轻松适用于各种计算机视觉任务,如分类、目标检测、VQA、看图说话、视频检索和动作识别,并在超过40个基准中刷新了SOTA。

 

今年,在计算机视觉方向的最新成果里面,「多模态」这个词是彻底火了!
 
对「多模态」方向的探索其实是源于人类自身。
 
人类对于多样化的、开放的世界,会产生自己的视觉理解,这种视觉理解并不会单单局限在某个特定的任务上(比如,图像分类),也不会仅仅依赖某一种特别的信息输入(比如,静态图像)。
而近日,微软正式宣布了一个新的计算机视觉基础模型Florence(佛罗伦萨),目的是要用一个模型一统多模态天下!
 
论文链接:https://arxiv.org/pdf/2111.11432.pdf
Florence在44个代表性基准中的大多数基准中实现了新的SOTA结果,例如ImageNet-1K zero-shot分类的Top-1准确率为83.74,Top-5准确率为97.18,COCO上微调可实现62 mAP,VQA上达到80.36,Kinetics-600上达到87.8。

内容中包含的图片若涉及版权问题,请及时与我们联系删除