横扫40+个SOTA！22位华人共同打造佛罗伦萨模型，一统图像视频文本，含9亿图像-文本对

近日，微软正式发布了一个新的计算机视觉基础模型Florence（佛罗伦萨），要用一个模型一统多模态天下！Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，并在超过40个基准中刷新了SOTA。

今年，在计算机视觉方向的最新成果里面，「多模态」这个词是彻底火了！

对「多模态」方向的探索其实是源于人类自身。

人类对于多样化的、开放的世界，会产生自己的视觉理解，这种视觉理解并不会单单局限在某个特定的任务上（比如，图像分类），也不会仅仅依赖某一种特别的信息输入（比如，静态图像）。

而近日，微软正式宣布了一个新的计算机视觉基础模型Florence（佛罗伦萨），目的是要用一个模型一统多模态天下！

Florence在44个代表性基准中的大多数基准中实现了新的SOTA结果，例如ImageNet-1K zero-shot分类的Top-1准确率为83.74，Top-5准确率为97.18，COCO上微调可实现62 mAP，VQA上达到80.36，Kinetics-600上达到87.8。

内容中包含的图片若涉及版权问题，请及时与我们联系删除