- 简介大型多模态模型(LMM)由于具备强大的指令遵循能力以及与人类偏好的高度一致性,正越来越多地被用作多模态评估系统中的评判者。然而,它们在遵循多样化、细粒度评估标准方面的能力仍缺乏深入探索。为此,我们构建了Multi-Crit这一基准,用于评估多模态评判模型在遵循多元评估标准并生成可靠的标准级判断方面的能力。Multi-Crit涵盖开放式生成和可验证推理任务,通过严格的数据整理流程构建而成,收集了大量具有多标准人工标注的挑战性回答对。此外,该基准还引入了三个新颖指标,以系统性地评估模型在多元标准遵循性、标准切换灵活性以及识别标准级偏好冲突方面的能力。对25个LMM的综合分析表明:1)专有模型在持续遵循多元评估标准方面仍存在困难,尤其在开放式评估任务中表现更差;2)开源模型在灵活遵循多样化标准方面进一步落后;3)尽管基于整体判断信号进行批评者微调可增强视觉对齐能力,但无法泛化到多元标准层级的判断任务中。我们还进一步分析了推理微调、测试时扩展策略,以及开源与专有模型之间的边界一致性,深入探究当前多模态评判模型的能力边界。作为一项开创性研究,Multi-Crit为构建可靠且可控的多模态人工智能评估体系奠定了基础。
-
- 图表
- 解决问题论文旨在解决大型多模态模型(LMMs)作为多模态评估裁判时,难以一致遵循多样化、细粒度评估标准的问题。尽管LMMs在指令遵循和与人类偏好一致性方面表现良好,但其在处理多标准、多维度评判任务中的灵活性和可靠性仍不明确。这是一个相对较新的问题,尤其在强调‘多元标准遵从性’(pluralistic criteria adherence)的背景下,尚未被系统研究。
- 关键思路提出Multi-Crit基准,专门用于评估多模态裁判模型在遵循多元评估标准方面的能力。关键创新在于构建了一个包含挑战性响应对和多标准人工标注的数据集,并设计了三个新指标:多元标准遵从性、标准切换灵活性、以及对标准间偏好冲突的识别能力。这使得对LMMs的评估从整体偏好判断深入到细粒度准则层面。
- 其它亮点1) 构建了覆盖开放生成与可验证推理任务的高质量多模态评估基准Multi-Crit,采用严格的数据筛选流程;2) 提出三个新颖评估指标,首次系统衡量模型在多标准环境下的判断能力;3) 对25个主流LMMs进行综合分析,发现闭源模型在开放任务中仍难保持标准一致性,开源模型在标准切换上更弱,批评性微调提升视觉定位但无法泛化到多元标准判断;4) 探索了推理微调、测试时扩展等策略的边界效应;5) 代码与数据有望推动可解释、可控制的AI评估研究,值得进一步探索基于Multi-Crit的训练方法。
- 1. 'LLM as a Judge' Is Not a One-Size-Fits-All Solution: An Empirical Study on Large Language Models as Preference Elicitation Tools 2. 'Can AI Help Me Evaluate?' Evaluating the Utility of LLM-based Evaluation in Creative Domains 3. Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference 4. Owl: A Benchmark for Evaluating Multimodal Reasoning with Fine-Grained Feedback 5. Criteria-Based Assessment of LLM Responses: Challenges in Consistency and Calibration
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流