华盛顿大学：打破常识，WHOOPS! 合成图像和组成图像的视觉和语言基准

介绍了WHOOPS！这是一个新的合成图像数据集，挑战人工智能模型对常识性和构成性的推理。

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz

[The Hebrew University of Jerusalem & Ben Gurion University of the Negev & Allen Institute for Artificial Intelligence & University of Washington]

怪异、不寻常和不可思议的图像引起了观察者的好奇心，因为它们挑战了常识。例如，2022年世界杯期间发布的一张图片描绘了著名的足球明星梅西和克里斯蒂亚诺-罗纳尔多在下棋，这俏皮地违反了我们对他们的竞争应该发生在足球场上的预期。人类可以很容易地识别和解释这些非常规的图像，但人工智能模型也能做到吗？
本文介绍了WHOOPS！，一个新的数据集和视觉常识的基准。该数据集由设计师使用公开的图像生成工具（如Midjourney）创建的故意违背常识的图像组成。考虑在数据集上提出的几个任务。除了图像标题、跨模式匹配和视觉问题回答之外，还引入了一个困难的解释生成任务，即模型必须识别和解释为什么给定的图像是不寻常的。
结果表明，最先进的模型如GPT3和BLIP2在WHOOPS上的表现仍然落后于人类。希望该数据集能够激发人工智能模型的发展，使其具有更强的视觉常识推理能力。数据、模型和代码可在项目网站上获得：https://whoops-benchmark.github.io/

内容中包含的图片若涉及版权问题，请及时与我们联系删除