VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

2024年04月09日
  • 简介
    多模态大语言模型(MLLMs)在网页相关任务中表现出了很大的潜力,但由于缺乏全面的基准测试,评估它们在网络领域的表现仍然是一个挑战。现有的基准测试要么是为一般多模态任务设计的,无法捕捉到网页的独特特征,要么专注于端到端的网络代理任务,无法衡量OCR、理解和基础等细粒度能力。在本文中,我们介绍了一个名为\bench{}的多模态基准测试,旨在评估MLLMs在各种网络任务中的能力。\bench{}包括七个任务,由139个真实网站的1.5K个人工策划实例组成,涵盖87个子域。我们在\bench{}上评估了14个开源MLLMs,包括Gemini Pro、Claude-3系列和GPT-4V(ision),揭示了重大的挑战和性能差距。进一步的分析突出了当前MLLMs的局限性,包括在文本丰富的环境中缺乏充分的基础和对低分辨率图像输入的表现不佳。我们相信\bench{}将成为研究社区的宝贵资源,并有助于创建更强大、更多功能的MLLMs,以应用于网络相关应用。
  • 图表
  • 解决问题
    论文旨在解决评估MLLM在Web任务中的性能的挑战,因为缺乏全面的基准测试数据集。现有的基准测试数据集要么是为通用多模态任务设计的,无法捕捉Web页面的独特特征,要么专注于端到端Web代理任务,无法衡量OCR、理解和基础能力等细粒度任务。
  • 关键思路
    作者设计了一个名为ench{}的多模态基准测试数据集,用于评估MLLM在各种Web任务中的能力。该数据集由7个任务组成,包括来自139个真实网站的1.5K个人工策划实例,涵盖87个子域。作者评估了14个开源MLLM,揭示了重大挑战和性能差距。作者还分析了当前MLLM的局限性,包括在文本丰富的环境中地基不足和在低分辨率图像输入方面表现不佳。
  • 其它亮点
    该论文设计了一个全面的多模态基准测试数据集,用于评估MLLM在Web任务中的能力。研究结果揭示了当前MLLM的局限性和性能差距,为未来的研究提供了指导。论文还提供了开源代码和数据集,为研究社区提供了有价值的资源。
  • 相关研究
    最近的相关研究主要集中在MLLM的应用和改进上,如GPT-4、CLIP等。另外,还有一些基准测试数据集被提出,如MM-IMDb、VQA等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论